論文の概要: Unified Framework with Consistency across Modalities for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2409.02385v1
- Date: Wed, 4 Sep 2024 02:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:41:08.398700
- Title: Unified Framework with Consistency across Modalities for Human Activity Recognition
- Title(参考訳): 人間活動認識のためのモダリティ間の一貫性を持った統一フレームワーク
- Authors: Tuyen Tran, Thao Minh Le, Hung Tran, Truyen Tran,
- Abstract要約: 本稿では,ロバストな映像に基づく人間行動認識のための包括的枠組みを提案する。
主な貢献はComputerと呼ばれる新しいクエリマシンの導入である。
提案手法は,最先端手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.639249548669756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing human activities in videos is challenging due to the spatio-temporal complexity and context-dependence of human interactions. Prior studies often rely on single input modalities, such as RGB or skeletal data, limiting their ability to exploit the complementary advantages across modalities. Recent studies focus on combining these two modalities using simple feature fusion techniques. However, due to the inherent disparities in representation between these input modalities, designing a unified neural network architecture to effectively leverage their complementary information remains a significant challenge. To address this, we propose a comprehensive multimodal framework for robust video-based human activity recognition. Our key contribution is the introduction of a novel compositional query machine, called COMPUTER ($\textbf{COMP}ositional h\textbf{U}man-cen\textbf{T}ric qu\textbf{ER}y$ machine), a generic neural architecture that models the interactions between a human of interest and its surroundings in both space and time. Thanks to its versatile design, COMPUTER can be leveraged to distill distinctive representations for various input modalities. Additionally, we introduce a consistency loss that enforces agreement in prediction between modalities, exploiting the complementary information from multimodal inputs for robust human movement recognition. Through extensive experiments on action localization and group activity recognition tasks, our approach demonstrates superior performance when compared with state-of-the-art methods. Our code is available at: https://github.com/tranxuantuyen/COMPUTER.
- Abstract(参考訳): ビデオにおける人間の活動を認識することは、人間の相互作用の時空間的複雑さと文脈依存性のために困難である。
以前の研究では、RGBや骨格データのような単一の入力モダリティに頼り、モダリティ間の相補的な利点を利用する能力を制限することが多かった。
最近の研究は、これらの2つのモダリティを単純な特徴融合技術で組み合わせることに重点を置いている。
しかしながら、これらの入力モダリティ間の表現に固有の相違があるため、補完的な情報を効果的に活用する統合ニューラルネットワークアーキテクチャを設計することは大きな課題である。
そこで本稿では,ロバストビデオに基づく人間行動認識のための総合的マルチモーダルフレームワークを提案する。
我々の重要な貢献はComputer ("\textbf{COMP}ositional h\textbf{U}man-cen\textbf{T}ric qu\textbf{ER}y$ machine")と呼ばれる新しい合成クエリマシンの導入である。
汎用設計により、Computerは様々な入力モードの表現を蒸留するために利用することができる。
さらに,マルチモーダル入力からの相補的な情報を利用して,頑健な人間の動作認識を実現することで,モダリティ間の予測に合意を強制する一貫性損失を導入する。
アクションローカライゼーションとグループアクティビティ認識タスクの広範な実験を通じて,本手法は最先端手法と比較して優れた性能を示す。
私たちのコードは、https://github.com/tranxuantuyen/COMPUTER.comで利用可能です。
関連論文リスト
- MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
人間活動認識は、幅広い分野で応用されているAIの長年の問題である。
マルチモーダルコントラスト事前学習を用いて,HARの性能を異なるモードで向上する方法を示す。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - HAMLET: A Hierarchical Multimodal Attention-based Human Activity
Recognition Algorithm [5.276937617129594]
ヒューマンアクティビティ認識(HAR)は,マルチモーダルデータ融合の難しさから,ロボットにとって困難な課題である。
本研究では,ニューラルネットワークに基づくマルチモーダルアルゴリズムHAMLETを提案する。
上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。
論文 参考訳(メタデータ) (2020-08-03T19:34:48Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。