論文の概要: Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge
- arxiv url: http://arxiv.org/abs/2407.05713v1
- Date: Mon, 8 Jul 2024 08:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:30:32.521499
- Title: Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge
- Title(参考訳): Ego4D短距離物体干渉予測チャレンジによる短距離物体干渉予測
- Authors: Hyunjin Cho, Dong Un Kang, Se Young Chun,
- Abstract要約: エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
- 参考スコア(独自算出の注目度): 11.429137967096935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short-term object interaction anticipation is an important task in egocentric video analysis, including precise predictions of future interactions and their timings as well as the categories and positions of the involved active objects. To alleviate the complexity of this task, our proposed method, SOIA-DOD, effectively decompose it into 1) detecting active object and 2) classifying interaction and predicting their timing. Our method first detects all potential active objects in the last frame of egocentric video by fine-tuning a pre-trained YOLOv9. Then, we combine these potential active objects as query with transformer encoder, thereby identifying the most promising next active object and predicting its future interaction and time-to-contact. Experimental results demonstrate that our method outperforms state-of-the-art models on the challenge test set, achieving the best performance in predicting next active objects and their interactions. Finally, our proposed ranked the third overall top-5 mAP when including time-to-contact predictions. The source code is available at https://github.com/KeenyJin/SOIA-DOD.
- Abstract(参考訳): 短期的オブジェクトインタラクション予測は、未来のインタラクションとそのタイミングの正確な予測や、関連するアクティブオブジェクトのカテゴリや位置を含む、エゴセントリックなビデオ分析において重要なタスクである。
この作業の複雑さを軽減するため,提案手法であるSOIA-DODを効果的に分解した。
1)能動物体の検出と検出
2)インタラクションの分類とタイミングの予測。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
次に,これらの潜在的アクティブオブジェクトを,トランスフォーマーエンコーダによるクエリとして組み合わせて,最も有望な次のアクティブオブジェクトを特定し,その将来的なインタラクションと合意までの時間を予測する。
実験結果から,本手法は課題テストセットにおける最先端モデルよりも優れており,次のアクティブオブジェクトとその相互作用を予測する上で最高の性能を実現していることがわかった。
最後に,提案手法は,時間対接触予測を含む3番目の総合5mAPをランク付けした。
ソースコードはhttps://github.com/KeenyJin/SOIA-DOD.comで入手できる。
関連論文リスト
- Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation [14.188006024550257]
我々は,エゴセントリックな視点から,短期的な物体相互作用予測問題を考察した。
提案手法は静止画像と映像を同時に処理し,次のアクティブ物体を検出する。
本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
論文 参考訳(メタデータ) (2023-04-08T09:01:37Z) - Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T13:44:52Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。