論文の概要: AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation
- arxiv url: http://arxiv.org/abs/2210.02578v1
- Date: Wed, 5 Oct 2022 21:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:34:48.914524
- Title: AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation
- Title(参考訳): AOE-Net:テンポラルアクション生成のためのアダプティブアテンション機構を用いたエンティティインタラクションモデリング
- Authors: Khoa Vo, Sang Truong, Kashu Yamazaki, Bhiksha Raj, Minh-Triet Tran,
Ngan Le
- Abstract要約: 時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
マルチモーダル表現ネットワーク、すなわちアクター・オブジェクト・環境相互作用ネットワーク(AOE-Net)を用いてこれらの相互作用をモデル化することを提案する。
私たちのAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成されています。
- 参考スコア(独自算出の注目度): 24.81870045216019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action proposal generation (TAPG) is a challenging task, which
requires localizing action intervals in an untrimmed video. Intuitively, we as
humans, perceive an action through the interactions between actors, relevant
objects, and the surrounding environment. Despite the significant progress of
TAPG, a vast majority of existing methods ignore the aforementioned principle
of the human perceiving process by applying a backbone network into a given
video as a black-box. In this paper, we propose to model these interactions
with a multi-modal representation network, namely, Actors-Objects-Environment
Interaction Network (AOE-Net). Our AOE-Net consists of two modules, i.e.,
perception-based multi-modal representation (PMR) and boundary-matching module
(BMM). Additionally, we introduce adaptive attention mechanism (AAM) in PMR to
focus only on main actors (or relevant objects) and model the relationships
among them. PMR module represents each video snippet by a visual-linguistic
feature, in which main actors and surrounding environment are represented by
visual information, whereas relevant objects are depicted by linguistic
features through an image-text model. BMM module processes the sequence of
visual-linguistic features as its input and generates action proposals.
Comprehensive experiments and extensive ablation studies on ActivityNet-1.3 and
THUMOS-14 datasets show that our proposed AOE-Net outperforms previous
state-of-the-art methods with remarkable performance and generalization for
both TAPG and temporal action detection. To prove the robustness and
effectiveness of AOE-Net, we further conduct an ablation study on egocentric
videos, i.e. EPIC-KITCHENS 100 dataset. Source code is available upon
acceptance.
- Abstract(参考訳): 時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
直感的には、私たちは人間として、アクター、関連するオブジェクト、および周囲の環境の間の相互作用を通じて行動を認識する。
TAPGの著しい進歩にもかかわらず、既存の手法の大部分は、前述の人間の知覚過程の原則を無視し、バックボーンネットワークを所定のビデオにブラックボックスとして適用している。
本稿では,これらの相互作用をマルチモーダル表現ネットワーク,すなわちactor-objects-environment interaction network (aoe-net) を用いてモデル化する。
我々のAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成される。
さらに,PMRにおける適応的注意機構(AAM)を導入し,主役(あるいは関連対象)のみに着目し,それらの関係をモデル化する。
PMRモジュールは、主アクターと周辺環境を視覚情報で表現する視覚言語的特徴によって各ビデオスニペットを表現し、関連するオブジェクトは画像テキストモデルを介して言語的特徴によって表現する。
BMMモジュールはその入力として視覚言語的特徴のシーケンスを処理し、アクション提案を生成する。
ActivityNet-1.3 と THUMOS-14 データセットに関する総合的な実験および広範囲なアブレーション研究により,提案した AOE-Net は,TAPG と時間的動作検出の両方において,従来の最先端手法よりも優れた性能と一般化を示した。
AOE-Netの堅牢性と有効性を証明するため、エゴセントリックビデオ(EPIC-KITCHENS 100 データセット)のアブレーション研究を行っている。
ソースコードは受理時に入手できる。
関連論文リスト
- Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection [4.938957922033169]
セマンティックシフトでテストサンプルを検出し、拒否するOOD(Out-of-Distribution)検出ターゲット。
我々は,新しい不確実性誘導外観運動ネットワーク(UAAN)を提案する。
UAANは最先端の手法をかなりの差で打ち負かし、その効果を実証する。
論文 参考訳(メタデータ) (2024-09-16T02:53:49Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - ABN: Agent-Aware Boundary Networks for Temporal Action Proposal
Generation [14.755186542366065]
時間的行動提案生成(TAPG)は、未トリミングビデオ中の時間的行動間隔を推定することを目的としている。
本稿では,2つのサブネットワークからなるエージェント・アウェア境界ネットワーク(ABN)を提案する。
提案するABNは,TAPGのバックボーンネットワークによらず,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:06:34Z) - AEI: Actors-Environment Interaction with Adaptive Attention for Temporal
Action Proposals Generation [15.360689782405057]
本研究では,時間的行動提案生成のための映像表現を改善するために,アクタ環境インタラクション(AEI)ネットワークを提案する。
AEIは2つのモジュール、すなわち知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)を含んでいる。
論文 参考訳(メタデータ) (2021-10-21T20:43:42Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。