論文の概要: Two-stream Multi-level Dynamic Point Transformer for Two-person
Interaction Recognition
- arxiv url: http://arxiv.org/abs/2307.11973v1
- Date: Sat, 22 Jul 2023 03:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:38:12.363287
- Title: Two-stream Multi-level Dynamic Point Transformer for Two-person
Interaction Recognition
- Title(参考訳): 双方向対話認識のための2ストリームマルチレベル動的点変換器
- Authors: Yao Liu, Gangfeng Cui, Jiahui Luo, Lina Yao and Xiaojun Chang
- Abstract要約: 本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、すべての標準評価設定において最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 65.87203087716263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental aspect of human life, two-person interactions contain
meaningful information about people's activities, relationships, and social
settings. Human action recognition serves as the foundation for many smart
applications, with a strong focus on personal privacy. However, recognizing
two-person interactions poses more challenges due to increased body occlusion
and overlap compared to single-person actions. In this paper, we propose a
point cloud-based network named Two-stream Multi-level Dynamic Point
Transformer for two-person interaction recognition. Our model addresses the
challenge of recognizing two-person interactions by incorporating local-region
spatial information, appearance information, and motion information. To achieve
this, we introduce a designed frame selection method named Interval Frame
Sampling (IFS), which efficiently samples frames from videos, capturing more
discriminative information in a relatively short processing time. Subsequently,
a frame features learning module and a two-stream multi-level feature
aggregation module extract global and partial features from the sampled frames,
effectively representing the local-region spatial information, appearance
information, and motion information related to the interactions. Finally, we
apply a transformer to perform self-attention on the learned features for the
final classification. Extensive experiments are conducted on two large-scale
datasets, the interaction subsets of NTU RGB+D 60 and NTU RGB+D 120. The
results show that our network outperforms state-of-the-art approaches across
all standard evaluation settings.
- Abstract(参考訳): 人間生活の基本的な側面として、2人の相互作用は、人々の活動、関係、社会的設定に関する意味のある情報を含んでいる。
ヒューマンアクション認識は多くのスマートアプリケーションの基礎となり、個人のプライバシーに重点を置いている。
しかし, 対人関係の認識は, 単対人行動に比べ, 身体閉塞や重なり合いの増加により, より多くの課題が生じる。
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは, 地域空間情報, 出現情報, 動き情報を取り込むことにより, 対人インタラクション認識の課題に対処した。
これを実現するために,IFS (Interval Frame Sampling) というフレーム選択方式を導入し,ビデオからフレームを効率的にサンプリングし,比較的短時間でより識別性の高い情報を収集する。
その後、フレームの特徴付けモジュールと、2ストリームのマルチレベル特徴集約モジュールは、サンプルフレームからグローバルかつ部分的な特徴を抽出し、その相互作用に関連する局所空間情報、外観情報、動き情報を効果的に表現する。
最後に,最終分類の学習特徴に対して自己注意を行うためにトランスフォーマを適用する。
NTU RGB+D 60とNTU RGB+D 120の相互作用サブセットである。
その結果,我々のネットワークは,すべての標準評価設定において最先端のアプローチを上回っていることがわかった。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human
Interaction Recognition [6.490564374810672]
2ストリームハイブリッドCNN-Transformer Network(THCT-Net)を提案する。
CNNの局所的な特異性を活用し、Transformerを通じてグローバルな依存関係をモデル化する。
提案手法は, 様々な行動の意味と文脈をよりよく理解し, 推測し, 最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-31T06:46:46Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Human-to-Human Interaction Detection [3.00604614803979]
ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
論文 参考訳(メタデータ) (2023-07-02T03:24:58Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。