論文の概要: Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention
- arxiv url: http://arxiv.org/abs/2305.12953v2
- Date: Fri, 23 Jun 2023 15:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 16:53:35.177384
- Title: Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention
- Title(参考訳): ガイドアテンションによる次のアクティブオブジェクトベースエゴセントリックアクション予測の強化
- Authors: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio
Del Bue
- Abstract要約: 個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
- 参考スコア(独自算出の注目度): 45.60789439017625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short-term action anticipation (STA) in first-person videos is a challenging
task that involves understanding the next active object interactions and
predicting future actions. Existing action anticipation methods have primarily
focused on utilizing features extracted from video clips, but often overlooked
the importance of objects and their interactions. To this end, we propose a
novel approach that applies a guided attention mechanism between the objects,
and the spatiotemporal features extracted from video clips, enhancing the
motion and contextual information, and further decoding the object-centric and
motion-centric information to address the problem of STA in egocentric videos.
Our method, GANO (Guided Attention for Next active Objects) is a multi-modal,
end-to-end, single transformer-based network. The experimental results
performed on the largest egocentric dataset demonstrate that GANO outperforms
the existing state-of-the-art methods for the prediction of the next active
object label, its bounding box location, the corresponding future action, and
the time to contact the object. The ablation study shows the positive
contribution of the guided attention mechanism compared to other fusion
methods. Moreover, it is possible to improve the next active object location
and class label prediction results of GANO by just appending the learnable
object tokens with the region of interest embeddings.
- Abstract(参考訳): ファーストパーソンビデオにおける短期的アクション予測(STA)は、次のアクティブなオブジェクトインタラクションを理解し、将来のアクションを予測することを含む、困難なタスクである。
既存のアクション予測手法は、主にビデオクリップから抽出された機能を活用することに重点を置いているが、しばしばオブジェクトとその相互作用の重要性を見逃していた。
そこで本研究では,オブジェクト間の注意機構とビデオクリップから抽出した時空間的特徴を導出し,動きと文脈情報を強化し,さらにオブジェクト中心と動き中心の情報をデコードして,自己中心型ビデオにおけるSTAの問題に対処する手法を提案する。
GANO(Guided Attention for Next Active Objects)はマルチモーダルでエンドツーエンドのシングルトランスベースのネットワークである。
その結果、GANOは次のアクティブなオブジェクトラベルの予測方法、そのバウンディングボックスの位置、対応する将来のアクション、そしてオブジェクトに接触する時間において、既存の最先端メソッドよりも優れていることが示された。
アブレーション研究は,他の核融合法と比較して誘導注意機構の正の寄与を示した。
さらに、学習可能なオブジェクトトークンを興味のある埋め込み領域に付加するだけで、ganoの次のアクティブオブジェクトロケーションとクラスラベル予測結果を改善することができる。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T13:44:52Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。