論文の概要: StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation
- arxiv url: http://arxiv.org/abs/2304.03959v2
- Date: Mon, 18 Mar 2024 16:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:30:29.906074
- Title: StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation
- Title(参考訳): StillFast: 短期オブジェクトインタラクション予測のためのエンドツーエンドアプローチ
- Authors: Francesco Ragusa, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: 我々は,エゴセントリックな視点から,短期的な物体相互作用予測問題を考察した。
提案手法は静止画像と映像を同時に処理し,次のアクティブ物体を検出する。
本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
- 参考スコア(独自算出の注目度): 14.188006024550257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipation problem has been studied considering different aspects such as predicting humans' locations, predicting hands and objects trajectories, and forecasting actions and human-object interactions. In this paper, we studied the short-term object interaction anticipation problem from the egocentric point of view, proposing a new end-to-end architecture named StillFast. Our approach simultaneously processes a still image and a video detecting and localizing next-active objects, predicting the verb which describes the future interaction and determining when the interaction will start. Experiments on the large-scale egocentric dataset EGO4D show that our method outperformed state-of-the-art approaches on the considered task. Our method is ranked first in the public leaderboard of the EGO4D short term object interaction anticipation challenge 2022. Please see the project web page for code and additional details: https://iplab.dmi.unict.it/stillfast/.
- Abstract(参考訳): 予測問題は、人間の位置の予測、手や物体の軌跡の予測、行動の予測、人間と物体の相互作用など、さまざまな側面を考慮して研究されてきた。
本稿では,オブジェクト間相互作用の短期的予測問題をエゴセントリックな視点から検討し,新たなエンドツーエンドアーキテクチャであるStillFastを提案する。
提案手法は静止画像と映像を同時に処理し、次のアクティブなオブジェクトを検出して位置を定め、将来のインタラクションを記述する動詞を予測し、いつ対話が始まるかを決定する。
大規模エゴセントリックデータセットEGO4Dの実験結果から,提案手法は課題に対する最先端のアプローチよりも優れていた。
本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
コードと詳細については、プロジェクトのWebページを参照してください。
関連論文リスト
- Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation [14.734158936250918]
短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
論文 参考訳(メタデータ) (2024-06-03T10:57:18Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T13:44:52Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Look Wide and Interpret Twice: Improving Performance on Interactive
Instruction-following Tasks [29.671268927569063]
近年の研究では、タスクのためのよく設計されたデータセットであるALFREDを用いてこの問題に対処している。
本稿では,従来の手法を大きなマージンで上回る新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T16:06:09Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。