Fugu-MT 論文翻訳(概要): Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention

論文の概要: Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention

arxiv url: http://arxiv.org/abs/2305.12953v2
Date: Fri, 23 Jun 2023 15:34:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 16:53:35.177384
Title: Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention
Title（参考訳）: ガイドアテンションによる次のアクティブオブジェクトベースエゴセントリックアクション予測の強化
Authors: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue
Abstract要約: 個人ビデオにおける短期的行動予測(STA)は難しい課題である。本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
参考スコア（独自算出の注目度）: 45.60789439017625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Short-term action anticipation (STA) in first-person videos is a challenging task that involves understanding the next active object interactions and predicting future actions. Existing action anticipation methods have primarily focused on utilizing features extracted from video clips, but often overlooked the importance of objects and their interactions. To this end, we propose a novel approach that applies a guided attention mechanism between the objects, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. Our method, GANO (Guided Attention for Next active Objects) is a multi-modal, end-to-end, single transformer-based network. The experimental results performed on the largest egocentric dataset demonstrate that GANO outperforms the existing state-of-the-art methods for the prediction of the next active object label, its bounding box location, the corresponding future action, and the time to contact the object. The ablation study shows the positive contribution of the guided attention mechanism compared to other fusion methods. Moreover, it is possible to improve the next active object location and class label prediction results of GANO by just appending the learnable object tokens with the region of interest embeddings.
Abstract（参考訳）: ファーストパーソンビデオにおける短期的アクション予測(STA)は、次のアクティブなオブジェクトインタラクションを理解し、将来のアクションを予測することを含む、困難なタスクである。既存のアクション予測手法は、主にビデオクリップから抽出された機能を活用することに重点を置いているが、しばしばオブジェクトとその相互作用の重要性を見逃していた。そこで本研究では,オブジェクト間の注意機構とビデオクリップから抽出した時空間的特徴を導出し,動きと文脈情報を強化し,さらにオブジェクト中心と動き中心の情報をデコードして,自己中心型ビデオにおけるSTAの問題に対処する手法を提案する。 GANO(Guided Attention for Next Active Objects)はマルチモーダルでエンドツーエンドのシングルトランスベースのネットワークである。その結果、GANOは次のアクティブなオブジェクトラベルの予測方法、そのバウンディングボックスの位置、対応する将来のアクション、そしてオブジェクトに接触する時間において、既存の最先端メソッドよりも優れていることが示された。アブレーション研究は,他の核融合法と比較して誘導注意機構の正の寄与を示した。さらに、学習可能なオブジェクトトークンを興味のある埋め込み領域に付加するだけで、ganoの次のアクティブオブジェクトロケーションとクラスラベル予測結果を改善することができる。

関連論文リスト

Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。 Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文参考訳（メタデータ） (2025-02-13T11:27:05Z)
Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文参考訳（メタデータ） (2024-07-08T08:13:16Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文参考訳（メタデータ） (2023-10-31T22:54:31Z)
Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文参考訳（メタデータ） (2023-08-16T12:07:02Z)
Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文参考訳（メタデータ） (2023-04-28T23:43:10Z)
Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文参考訳（メタデータ） (2023-02-13T13:44:52Z)
Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文参考訳（メタデータ） (2022-05-22T06:54:33Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。