論文の概要: IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2110.13385v1
- Date: Tue, 26 Oct 2021 03:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 14:58:54.229721
- Title: IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action
Recognition
- Title(参考訳): IIP変換器:骨格に基づく行動認識のためのインターパート変換器
- Authors: Qingtian Wang, Jianlin Peng, Shuze Shi, Tingxi Liu, Jiabin He,
Renliang Weng
- Abstract要約: 骨格型行動認識タスクのための新しいトランスフォーマーベースネットワーク(IIP-Transformer)を提案する。
個々の関節間の相互作用を利用する代わりに、IIP-Transformerは体の関節と部分の相互作用を同時に組み込む。
提案した IIP-Transformer は,DSTA-Net よりも8倍以上の計算量で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 0.5953569982292298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based networks have shown great promise on
skeleton-based action recognition tasks. The ability to capture global and
local dependencies is the key to success while it also brings quadratic
computation and memory cost. Another problem is that previous studies mainly
focus on the relationships among individual joints, which often suffers from
the noisy skeleton joints introduced by the noisy inputs of sensors or
inaccurate estimations. To address the above issues, we propose a novel
Transformer-based network (IIP-Transformer). Instead of exploiting interactions
among individual joints, our IIP-Transformer incorporates body joints and parts
interactions simultaneously and thus can capture both joint-level (intra-part)
and part-level (inter-part) dependencies efficiently and effectively. From the
data aspect, we introduce a part-level skeleton data encoding that
significantly reduces the computational complexity and is more robust to
joint-level skeleton noise. Besides, a new part-level data augmentation is
proposed to improve the performance of the model. On two large-scale datasets,
NTU-RGB+D 60 and NTU RGB+D 120, the proposed IIP-Transformer achieves
the-state-of-art performance with more than 8x less computational complexity
than DSTA-Net, which is the SOTA Transformer-based method.
- Abstract(参考訳): 近年、トランスフォーマーベースのネットワークは、スケルトンベースのアクション認識タスクに大きな期待を寄せている。
グローバルとローカルの依存関係をキャプチャする能力は成功の鍵であり、二次計算とメモリコストももたらす。
もう一つの問題は、センサのノイズ入力や不正確な推定によって生じるノイズの多い骨格関節に悩まされる個々の関節間の関係に主に焦点が当てられていることである。
上記の課題に対処するため,新しいトランスフォーマーネットワーク(IIP-Transformer)を提案する。
我々のIIP-Transformerは、個々の関節間の相互作用を利用する代わりに、ボディジョイントとパーツインタラクションを同時に組み込むことで、ジョイントレベル(イントラパート)とパートレベル(インターパート)の両方の依存関係を効率的に効果的にキャプチャすることができる。
データの観点から、計算複雑性を著しく低減し、関節レベルのスケルトンノイズに対してより堅牢な部分レベルスケルトンデータ符号化を導入する。
さらに、モデルの性能を向上させるために、新しい部分レベルのデータ拡張を提案する。
NTU-RGB+D 60 と NTU RGB+D 120 の2つの大規模データセットにおいて、提案した IIP-Transformer は、SOTA Transformer ベースの手法である DSTA-Net よりも8倍以上の計算量で、最先端の性能を達成する。
関連論文リスト
- A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human
Interaction Recognition [6.490564374810672]
2ストリームハイブリッドCNN-Transformer Network(THCT-Net)を提案する。
CNNの局所的な特異性を活用し、Transformerを通じてグローバルな依存関係をモデル化する。
提案手法は, 様々な行動の意味と文脈をよりよく理解し, 推測し, 最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-31T06:46:46Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person
Interaction Recognition [65.87203087716263]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、すべての標準評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Efficient and Accurate Skeleton-Based Two-Person Interaction Recognition
Using Inter- and Intra-body Graphs [7.563146292108742]
本稿では,2人のインタラクションを正確に認識するための軽量モデルを提案する。
中核融合を組み込んだアーキテクチャに加えて、重みパラメータを低減するための分解畳み込み手法を導入する。
また,体間関節間の相対的距離変化を考慮したネットワークストリームを導入し,精度を向上する。
論文 参考訳(メタデータ) (2022-07-26T04:28:40Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Spatial Temporal Transformer Network for Skeleton-based Action
Recognition [12.117737635879037]
関節間の依存関係をモデル化する新しい空間-時間変換器ネットワーク(ST-TR)を提案する。
ST-TRモデルでは、SSA(Spatial Self-Attention Module)とTSA(temporal Self-Attention Module)を用いてフレーム間の相関をモデル化しています。
両者は2ストリームネットワークで結合され、同じ入力データを用いて最先端モデルより優れている。
論文 参考訳(メタデータ) (2020-12-11T14:58:21Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。