論文の概要: AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation
- arxiv url: http://arxiv.org/abs/2406.01194v2
- Date: Wed, 5 Jun 2024 15:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:59:09.578599
- Title: AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation
- Title(参考訳): AFF-ttention! 短期オブジェクトインタラクション予測のための予測モデルと注意モデル
- Authors: Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Josechu Guerrero, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: 短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
- 参考スコア(独自算出の注目度): 14.734158936250918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short-Term object-interaction Anticipation consists of detecting the location of the next-active objects, the noun and verb categories of the interaction, and the time to contact from the observation of egocentric video. This ability is fundamental for wearable assistants or human robot interaction to understand the user goals, but there is still room for improvement to perform STA in a precise and reliable way. In this work, we improve the performance of STA predictions with two contributions: 1. We propose STAformer, a novel attention-based architecture integrating frame guided temporal pooling, dual image-video attention, and multiscale feature fusion to support STA predictions from an image-input video pair. 2. We introduce two novel modules to ground STA predictions on human behavior by modeling affordances.First, we integrate an environment affordance model which acts as a persistent memory of interactions that can take place in a given physical scene. Second, we predict interaction hotspots from the observation of hands and object trajectories, increasing confidence in STA predictions localized around the hotspot. Our results show significant relative Overall Top-5 mAP improvements of up to +45% on Ego4D and +42% on a novel set of curated EPIC-Kitchens STA labels. We will release the code, annotations, and pre extracted affordances on Ego4D and EPIC- Kitchens to encourage future research in this area.
- Abstract(参考訳): 短期的オブジェクトインタラクション予測は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
この能力は、ユーザの目標を理解するためのウェアラブルアシスタントやヒューマンロボットのインタラクションには基本的だが、正確で信頼性の高い方法でSTAを実行するための改善の余地はまだ残っている。
本稿では,2つのコントリビューションによるSTA予測の性能向上について述べる。
1. STAformerは、フレームガイド付き時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。
まず,特定の物理的場面で発生する相互作用の永続記憶として機能する環境割当モデルを統合する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
以上の結果より,EPIC-Kitchens STAラベルの新規セットでは,Ego4Dでは45%,EPIC-Kitchens STAでは42%,Top-5 mAPでは45%と有意に改善した。
Ego4D と EPIC- Kitchens のコード、アノテーション、事前抽出した価格を公表し、この分野の今後の研究を奨励します。
関連論文リスト
- Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA [10.144283429670807]
STA(Short-Term Object-Interaction Precipation)は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
STAformerは、フレーム誘導時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。
論文 参考訳(メタデータ) (2024-07-05T09:16:30Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Best Practices for 2-Body Pose Forecasting [58.661899246497896]
我々は、人間のポーズ予測の進捗状況を概観し、最善を尽くす一対一の実践を詳細に評価する。
他の1人のプラクティスは2体に移行しないため、提案されているベストプラクティスは階層的なボディモデリングや注目に基づくインタラクションエンコーディングは含まない。
提案した2体ポーズによるベストプラクティス予測では,最新のExPIデータセットのパフォーマンスが21.9%向上した。
論文 参考訳(メタデータ) (2023-04-12T10:46:23Z) - Joint Hand Motion and Interaction Hotspots Prediction from Egocentric
Videos [13.669927361546872]
我々は、エゴセントリックなビデオから将来の手-物間相互作用を予測する。
動作ラベルや画素を予測する代わりに,次のアクティブオブジェクトの移動軌跡と将来の接触点を直接予測する。
我々のモデルはトランスフォーマーの自己認識機構を介して手動と物体の相互作用推論を行う。
論文 参考訳(メタデータ) (2022-04-04T17:59:03Z) - Comparison of Spatio-Temporal Models for Human Motion and Pose
Forecasting in Face-to-Face Interaction Scenarios [47.99589136455976]
本稿では,行動予測のための最新手法の体系的比較を行った。
UDIVA v0.5の最先端性能を実現するのに最も注意を払っているアプローチである。
短期的に訓練された手法で未来を自動回帰予測することで、かなり長期にわたってベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-07T09:59:30Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。