論文の概要: EgoLoc: A Generalizable Solution for Temporal Interaction Localization in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2508.12349v1
- Date: Sun, 17 Aug 2025 12:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.696794
- Title: EgoLoc: A Generalizable Solution for Temporal Interaction Localization in Egocentric Videos
- Title(参考訳): EgoLoc:エゴセントリックビデオにおける時間的インタラクションローカライゼーションのための一般化可能なソリューション
- Authors: Junyi Ma, Erhang Zhang, Yin-Dong Zheng, Yuchen Xie, Yixuan Zhou, Hesheng Wang,
- Abstract要約: 自我中心の視覚における手動物体の相互作用の分析は、VR/ARアプリケーションと人間ロボットのポリシー伝達を促進する。
EgoLocと呼ばれる新しいゼロショットアプローチを提案し、エゴセントリックなビデオで手動接触と切り離しタイムスタンプをローカライズする。
EgoLocは、視覚言語モデルを利用して、コンタクト/セパレーション属性を特定し、特定のタイムスタンプをローカライズし、さらなる改善のためにクローズドループフィードバックを提供する。
- 参考スコア(独自算出の注目度): 13.10069586920198
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Analyzing hand-object interaction in egocentric vision facilitates VR/AR applications and human-robot policy transfer. Existing research has mostly focused on modeling the behavior paradigm of interactive actions (i.e., ``how to interact''). However, the more challenging and fine-grained problem of capturing the critical moments of contact and separation between the hand and the target object (i.e., ``when to interact'') is still underexplored, which is crucial for immersive interactive experiences in mixed reality and robotic motion planning. Therefore, we formulate this problem as temporal interaction localization (TIL). Some recent works extract semantic masks as TIL references, but suffer from inaccurate object grounding and cluttered scenarios. Although current temporal action localization (TAL) methods perform well in detecting verb-noun action segments, they rely on category annotations during training and exhibit limited precision in localizing hand-object contact/separation moments. To address these issues, we propose a novel zero-shot approach dubbed EgoLoc to localize hand-object contact and separation timestamps in egocentric videos. EgoLoc introduces hand-dynamics-guided sampling to generate high-quality visual prompts. It exploits the vision-language model to identify contact/separation attributes, localize specific timestamps, and provide closed-loop feedback for further refinement. EgoLoc eliminates the need for object masks and verb-noun taxonomies, leading to generalizable zero-shot implementation. Comprehensive experiments on the public dataset and our novel benchmarks demonstrate that EgoLoc achieves plausible TIL for egocentric videos. It is also validated to effectively facilitate multiple downstream applications in egocentric vision and robotic manipulation tasks. Code and relevant data will be released at https://github.com/IRMVLab/EgoLoc.
- Abstract(参考訳): 自我中心の視覚における手動物体の相互作用の分析は、VR/ARアプリケーションと人間ロボットのポリシー伝達を促進する。
既存の研究は、対話的な行動の行動パラダイム(すなわち 'How to Interaction'')をモデル化することに集中してきた。
しかし、手と対象物との接触と分離の重要な瞬間を捉えるというより困難できめ細かな問題(例えば「対話する」)はいまだに未発見であり、これは混合現実とロボットの動き計画において、インタラクティブな経験を没入させるのに不可欠である。
したがって、この問題を時間的相互作用ローカライゼーション(TIL)として定式化する。
いくつかの最近の研究は、TIL参照としてセマンティックマスクを抽出しているが、不正確なオブジェクトの接地と乱雑なシナリオに悩まされている。
現在の時間的行動ローカライゼーション(TAL)法は動詞-名詞行動セグメントの検出には有効であるが、訓練中のカテゴリーアノテーションに依存し、手-対象接触/分離モーメントの局所化において限られた精度を示す。
これらの問題に対処するために,エゴセントリックビデオにおける手動接触とタイムスタンプの分離をローカライズする,EgoLocと呼ばれる新しいゼロショットアプローチを提案する。
EgoLocは、高品質なビジュアルプロンプトを生成するために、手動誘導サンプリングを導入している。
視覚言語モデルを利用して、接触/分離属性を特定し、特定のタイムスタンプをローカライズし、さらなる改善のためにクローズドループフィードバックを提供する。
EgoLocは、オブジェクトマスクと動詞名詞分類の必要性を排除し、一般化可能なゼロショット実装へと繋がる。
公開データセットと我々の新しいベンチマークに関する総合的な実験により、EgoLocは、エゴセントリックなビデオに対して、もっともらしいTILを実現していることが示された。
また、エゴセントリックな視覚とロボット操作タスクにおける複数の下流の応用を効果的に促進することが検証されている。
コードと関連するデータはhttps://github.com/IRMVLab/EgoLoc.comで公開される。
関連論文リスト
- Zero-Shot Temporal Interaction Localization for Egocentric Videos [13.70694228506315]
EgoLocと呼ばれる新しいゼロショットTIL手法を提案する。
2Dと3Dの両方を吸収することにより、EgoLocはHOIの接触/分離タイムスタンプに関する高品質な初期推定を直接サンプリングする。
EgoLocは、最先端のベースラインに比べて、エゴセントリックなビデオの時間的相互作用のローカライゼーションが優れている。
論文 参考訳(メタデータ) (2025-06-04T07:52:46Z) - Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。