Fugu-MT 論文翻訳(概要): IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition

論文の概要: IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition

arxiv url: http://arxiv.org/abs/2110.13385v1
Date: Tue, 26 Oct 2021 03:24:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-27 14:58:54.229721
Title: IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition
Title（参考訳）: IIP変換器:骨格に基づく行動認識のためのインターパート変換器
Authors: Qingtian Wang, Jianlin Peng, Shuze Shi, Tingxi Liu, Jiabin He, Renliang Weng
Abstract要約: 骨格型行動認識タスクのための新しいトランスフォーマーベースネットワーク(IIP-Transformer)を提案する。個々の関節間の相互作用を利用する代わりに、IIP-Transformerは体の関節と部分の相互作用を同時に組み込む。提案した IIP-Transformer は,DSTA-Net よりも8倍以上の計算量で最先端の性能を実現する。
参考スコア（独自算出の注目度）: 0.5953569982292298
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Transformer-based networks have shown great promise on skeleton-based action recognition tasks. The ability to capture global and local dependencies is the key to success while it also brings quadratic computation and memory cost. Another problem is that previous studies mainly focus on the relationships among individual joints, which often suffers from the noisy skeleton joints introduced by the noisy inputs of sensors or inaccurate estimations. To address the above issues, we propose a novel Transformer-based network (IIP-Transformer). Instead of exploiting interactions among individual joints, our IIP-Transformer incorporates body joints and parts interactions simultaneously and thus can capture both joint-level (intra-part) and part-level (inter-part) dependencies efficiently and effectively. From the data aspect, we introduce a part-level skeleton data encoding that significantly reduces the computational complexity and is more robust to joint-level skeleton noise. Besides, a new part-level data augmentation is proposed to improve the performance of the model. On two large-scale datasets, NTU-RGB+D 60 and NTU RGB+D 120, the proposed IIP-Transformer achieves the-state-of-art performance with more than 8x less computational complexity than DSTA-Net, which is the SOTA Transformer-based method.
Abstract（参考訳）: 近年、トランスフォーマーベースのネットワークは、スケルトンベースのアクション認識タスクに大きな期待を寄せている。グローバルとローカルの依存関係をキャプチャする能力は成功の鍵であり、二次計算とメモリコストももたらす。もう一つの問題は、センサのノイズ入力や不正確な推定によって生じるノイズの多い骨格関節に悩まされる個々の関節間の関係に主に焦点が当てられていることである。上記の課題に対処するため,新しいトランスフォーマーネットワーク(IIP-Transformer)を提案する。我々のIIP-Transformerは、個々の関節間の相互作用を利用する代わりに、ボディジョイントとパーツインタラクションを同時に組み込むことで、ジョイントレベル(イントラパート)とパートレベル(インターパート)の両方の依存関係を効率的に効果的にキャプチャすることができる。データの観点から、計算複雑性を著しく低減し、関節レベルのスケルトンノイズに対してより堅牢な部分レベルスケルトンデータ符号化を導入する。さらに、モデルの性能を向上させるために、新しい部分レベルのデータ拡張を提案する。 NTU-RGB+D 60 と NTU RGB+D 120 の2つの大規模データセットにおいて、提案した IIP-Transformer は、SOTA Transformer ベースの手法である DSTA-Net よりも8倍以上の計算量で、最先端の性能を達成する。

関連論文リスト

Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network [37.84039482457571]
LMIINetと呼ばれるリアルタイムセマンティックセグメンテーションのための軽量な多重情報インタラクションネットワークを提案する。 CNNとTransformerを効果的に組み合わせ、冗長な計算とメモリフットプリントを削減する。 0.72Mパラメータと11.74G FLOPsで、LMIINetはシティスケープのテストセットで100 FPSで72.0% mIoU、CamVidデータセットで160 FPSで69.94% mIoUを達成した。
論文参考訳（メタデータ） (2024-10-03T05:45:24Z)
Spiking Transformer with Spatial-Temporal Attention [26.7175155847563]
SpikeベースのTransformerは、従来のニューラルネットワーク(ANN)ベースのTransformerに代わる、魅力的でエネルギー効率のよい代替手段を提供する。本研究では,空間的・時間的情報を自己認識機構に効率よく統合する,シンプルかつ簡単なアーキテクチャである空間時間注意型スパイキングトランスフォーマーを提案する。アーキテクチャのオーバーホールなしに既存のスパイクベースのトランスにシームレスに統合できる。
論文参考訳（メタデータ） (2024-09-29T20:29:39Z)
Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文参考訳（メタデータ） (2024-09-26T07:24:09Z)
ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。また,ELGC-Net-LWも導入した。
論文参考訳（メタデータ） (2024-03-26T17:46:25Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
Efficient and Accurate Skeleton-Based Two-Person Interaction Recognition Using Inter- and Intra-body Graphs [7.563146292108742]
本稿では,2人のインタラクションを正確に認識するための軽量モデルを提案する。中核融合を組み込んだアーキテクチャに加えて、重みパラメータを低減するための分解畳み込み手法を導入する。また,体間関節間の相対的距離変化を考慮したネットワークストリームを導入し,精度を向上する。
論文参考訳（メタデータ） (2022-07-26T04:28:40Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。 nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2021-09-07T17:08:24Z)
Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-12-23T09:33:11Z)
Spatial Temporal Transformer Network for Skeleton-based Action Recognition [12.117737635879037]
関節間の依存関係をモデル化する新しい空間-時間変換器ネットワーク(ST-TR)を提案する。 ST-TRモデルでは、SSA(Spatial Self-Attention Module)とTSA(temporal Self-Attention Module)を用いてフレーム間の相関をモデル化しています。両者は2ストリームネットワークで結合され、同じ入力データを用いて最先端モデルより優れている。
論文参考訳（メタデータ） (2020-12-11T14:58:21Z)
Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。本稿では,自然言語処理タスクにmixupを適用する方法について検討する。我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文参考訳（メタデータ） (2020-10-05T23:37:30Z)
Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文参考訳（メタデータ） (2020-08-17T15:25:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。