論文の概要: Holistic Interaction Transformer Network for Action Detection
- arxiv url: http://arxiv.org/abs/2210.12686v1
- Date: Sun, 23 Oct 2022 10:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:54:10.375125
- Title: Holistic Interaction Transformer Network for Action Detection
- Title(参考訳): 動作検出のための全体的インタラクショントランスフォーマネットワーク
- Authors: Gueter Josmy Faure, Min-Hung Chen, Shang-Hong Lai
- Abstract要約: HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 15.667833703317124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actions are about how we interact with the environment, including other
people, objects, and ourselves. In this paper, we propose a novel multi-modal
Holistic Interaction Transformer Network (HIT) that leverages the largely
ignored, but critical hand and pose information essential to most human
actions. The proposed "HIT" network is a comprehensive bi-modal framework that
comprises an RGB stream and a pose stream. Each of them separately models
person, object, and hand interactions. Within each sub-network, an
Intra-Modality Aggregation module (IMA) is introduced that selectively merges
individual interaction units. The resulting features from each modality are
then glued using an Attentive Fusion Mechanism (AFM). Finally, we extract cues
from the temporal context to better classify the occurring actions using cached
memory. Our method significantly outperforms previous approaches on the J-HMDB,
UCF101-24, and MultiSports datasets. We also achieve competitive results on
AVA. The code will be available at https://github.com/joslefaure/HIT.
- Abstract(参考訳): アクションとは、他の人やオブジェクト、私たちを含む、環境とのインタラクション方法に関するものです。
本稿では,多くの人間の行動に不可欠な,無視されるが批判的な手やポーズ情報を活用するマルチモーダルな包括的インタラクショントランスフォーマーネットワーク(hit)を提案する。
提案する"HIT"ネットワークは,RGBストリームとポーズストリームを組み合わせた総合的なバイモーダルフレームワークである。
それぞれが個人、オブジェクト、手動のインタラクションを別々にモデル化する。
各サブネットワーク内では、個々の相互作用ユニットを選択的にマージするイントラモダリティアグリゲーションモジュール(ima)が導入された。
それぞれのモダリティから得られる特徴は、観測核融合機構(AFM)を用いて接着される。
最後に、時間的文脈から手がかりを抽出し、キャッシュメモリを用いて発生した動作をよりよく分類する。
本手法はj-hmdb, ucf101-24, multisportsデータセットにおける従来のアプローチを大きく上回っている。
AVA上での競争結果も達成します。
コードはhttps://github.com/joslefaure/hitで入手できる。
関連論文リスト
- HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Interaction Region Visual Transformer for Egocentric Action Anticipation [18.873728614415946]
本研究では,エゴセントリックな行動予測のための人間と物体の相互作用を表現する新しい手法を提案する。
空間的クロスアテンションを用いた手と物体の相互作用をモデル化する。
次に,トラジェクトリ・クロス・アテンションを用いてコンテキスト情報を注入し,環境に合った対話トークンを得る。
これらのトークンを用いて,アクション予測のためのインタラクション中心のビデオ表現を構築する。
論文 参考訳(メタデータ) (2022-11-25T15:00:51Z) - AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation [24.81870045216019]
時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
マルチモーダル表現ネットワーク、すなわちアクター・オブジェクト・環境相互作用ネットワーク(AOE-Net)を用いてこれらの相互作用をモデル化することを提案する。
私たちのAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成されています。
論文 参考訳(メタデータ) (2022-10-05T21:57:25Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。