論文の概要: A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human
Interaction Recognition
- arxiv url: http://arxiv.org/abs/2401.00409v1
- Date: Sun, 31 Dec 2023 06:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:29:20.392996
- Title: A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human
Interaction Recognition
- Title(参考訳): 骨格型ヒューマンインタラクション認識のための2ストリームハイブリッドCNN変換器ネットワーク
- Authors: Ruoqi Yin, Jianqin Yin
- Abstract要約: 2ストリームハイブリッドCNN-Transformer Network(THCT-Net)を提案する。
CNNの局所的な特異性を活用し、Transformerを通じてグローバルな依存関係をモデル化する。
提案手法は, 様々な行動の意味と文脈をよりよく理解し, 推測し, 最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 6.490564374810672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Interaction Recognition is the process of identifying interactive
actions between multiple participants in a specific situation. The aim is to
recognise the action interactions between multiple entities and their meaning.
Many single Convolutional Neural Network has issues, such as the inability to
capture global instance interaction features or difficulty in training, leading
to ambiguity in action semantics. In addition, the computational complexity of
the Transformer cannot be ignored, and its ability to capture local information
and motion features in the image is poor. In this work, we propose a Two-stream
Hybrid CNN-Transformer Network (THCT-Net), which exploits the local specificity
of CNN and models global dependencies through the Transformer. CNN and
Transformer simultaneously model the entity, time and space relationships
between interactive entities respectively. Specifically, Transformer-based
stream integrates 3D convolutions with multi-head self-attention to learn
inter-token correlations; We propose a new multi-branch CNN framework for
CNN-based streams that automatically learns joint spatio-temporal features from
skeleton sequences. The convolutional layer independently learns the local
features of each joint neighborhood and aggregates the features of all joints.
And the raw skeleton coordinates as well as their temporal difference are
integrated with a dual-branch paradigm to fuse the motion features of the
skeleton. Besides, a residual structure is added to speed up training
convergence. Finally, the recognition results of the two branches are fused
using parallel splicing. Experimental results on diverse and challenging
datasets, demonstrate that the proposed method can better comprehend and infer
the meaning and context of various actions, outperforming state-of-the-art
methods.
- Abstract(参考訳): ヒューマンインタラクション認識は、特定の状況における複数の参加者間の対話的行動を特定するプロセスである。
目的は、複数の実体とその意味の間の相互作用を認識することである。
多くの単一畳み込みニューラルネットワークには、グローバルインスタンスインタラクションの特徴をキャプチャできない、トレーニングが難しいといった問題があり、アクションセマンティクスの曖昧さに繋がる。
さらに、トランスフォーマーの計算複雑性は無視できず、画像内のローカル情報やモーション特徴をキャプチャする能力は貧弱である。
本研究では,cnnの局所的特異性を活用し,トランスフォーマによるグローバル依存をモデル化する2ストリームハイブリッドcnn-transformer network (thct-net)を提案する。
CNNとTransformerは、インタラクティブなエンティティ間のエンティティ、時間、空間の関係を同時にモデル化する。
具体的には、トランスフォーマーベースのストリームは、3次元畳み込みとマルチヘッドセルフアテンションを統合して相互相関を学習し、cnnベースのストリームに対して、スケルトンシーケンスから時空間的特徴を自動的に学習する新しいマルチブランチcnnフレームワークを提案する。
畳み込み層は、各関節近傍の局所的特徴を独立に学習し、すべての関節の特徴を集約する。
そして、生の骨格座標とその時間的差は、骨格の運動特徴を融合させるためにデュアルブランチパラダイムと統合される。
また、トレーニング収束を高速化するために残留構造を付加する。
最後に、2つの枝の認識結果を並列スプライシングを用いて融合する。
提案手法は,多様かつ難解なデータセット上で,様々な動作の意味や文脈をよりよく理解し,推測できることが実証された。
関連論文リスト
- Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。