論文の概要: Integrating Affordances and Attention models for Short-Term Object Interaction Anticipation
- arxiv url: http://arxiv.org/abs/2602.14837v1
- Date: Mon, 16 Feb 2026 15:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.484596
- Title: Integrating Affordances and Attention models for Short-Term Object Interaction Anticipation
- Title(参考訳): 短期物間相互作用予測のためのアテンションモデルとアテンションモデルの統合
- Authors: Lorenzo Mur Labadia, Ruben Martinez-Cantin, Jose J. Guerrero, Giovanni M. Farinella, Antonino Furnari,
- Abstract要約: 短期的オブジェクトインタラクションの予測は、ウェアラブルアシスタントがユーザの目標を理解し、タイムリーな支援を提供するために不可欠である。
本研究では,STA予測の性能向上手法を提案する。
以上の結果より,EPIC-Kitchens STAラベルの新規セットでは,Ego4Dでは+23p.p,Ego4Dでは+31p.p,EPIC-Kitchens STAラベルでは+31p.pとなった。
- 参考スコア(独自算出の注目度): 17.55088626523059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short Term object-interaction Anticipation consists in detecting the location of the next active objects, the noun and verb categories of the interaction, as well as the time to contact from the observation of egocentric video. This ability is fundamental for wearable assistants to understand user goals and provide timely assistance, or to enable human-robot interaction. In this work, we present a method to improve the performance of STA predictions. Our contributions are two-fold: 1 We propose STAformer and STAformer plus plus, two novel attention-based architectures integrating frame-guided temporal pooling, dual image-video attention, and multiscale feature fusion to support STA predictions from an image-input video pair; 2 We introduce two novel modules to ground STA predictions on human behavior by modeling affordances. First, we integrate an environment affordance model which acts as a persistent memory of interactions that can take place in a given physical scene. We explore how to integrate environment affordances via simple late fusion and with an approach which adaptively learns how to best fuse affordances with end-to-end predictions. Second, we predict interaction hotspots from the observation of hands and object trajectories, increasing confidence in STA predictions localized around the hotspot. Our results show significant improvements on Overall Top-5 mAP, with gain up to +23p.p on Ego4D and +31p.p on a novel set of curated EPIC-Kitchens STA labels. We released the code, annotations, and pre-extracted affordances on Ego4D and EPIC-Kitchens to encourage future research in this area.
- Abstract(参考訳): 短期的オブジェクトインタラクション予測は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
この能力は、ウェアラブルアシスタントがユーザの目標を理解し、タイムリーなアシストを提供する、あるいは人間とロボットの対話を可能にする、基本的なものだ。
本研究では,STA予測の性能向上手法を提案する。
我々は,STAformerとSTAformerに加えて,フレーム誘導時間プール,デュアルイメージビデオアテンション,マルチスケール機能融合を統合して画像入力ビデオペアからのSTA予測をサポートする2つの新しいモジュールを提案する。
まず、特定の物理的場面で起こりうる相互作用の永続記憶として機能する環境割当モデルを統合する。
本稿では, 簡易なレイトフュージョンと, エンド・ツー・エンドの予測によって, 環境の空き地を最適に融合する方法を適応的に学習するアプローチを用いて, 環境の空き地を統合する方法について検討する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
以上の結果より,EPIC-Kitchens STAラベルの新規セットでは,Ego4Dでは+23p.p,Ego4Dでは+31p.p,EPIC-Kitchens STAラベルでは+31p.pとなった。
Ego4D と EPIC-Kitchens のコード、アノテーション、事前抽出価格を公表し、この分野の今後の研究を奨励しました。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - FIction: 4D Future Interaction Prediction from Video [63.37136159797888]
ビデオからの4次元未来のインタラクション予測のためのFIctionを紹介する。
人間の活動のインプットビデオが与えられたら、その人が次に対話する3D位置のオブジェクトを予測することが目的だ。
論文 参考訳(メタデータ) (2024-12-01T18:44:17Z) - ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA [10.144283429670807]
STA(Short-Term Object-Interaction Precipation)は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
STAformerは、フレーム誘導時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。
論文 参考訳(メタデータ) (2024-07-05T09:16:30Z) - AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation [14.734158936250918]
短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
論文 参考訳(メタデータ) (2024-06-03T10:57:18Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。