論文の概要: EgoVITA: Learning to Plan and Verify for Egocentric Video Reasoning
- arxiv url: http://arxiv.org/abs/2511.18242v1
- Date: Sun, 23 Nov 2025 01:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.716529
- Title: EgoVITA: Learning to Plan and Verify for Egocentric Video Reasoning
- Title(参考訳): EgoVITA:Egocentric Video Reasoningの計画と検証を学ぶ
- Authors: Yogesh Kulkarni, Pooyan Fazli,
- Abstract要約: 構造化計画と検証を通じてMLLMの推論を可能にする強化学習フレームワークであるtextbfEgoVITA$を紹介した。
EgoVITAは、エゴセントリックな推論タスクにおいて、ベースラインのQwen2.5-VL-7Bを、EgoBlindで$mathbf+7.7$、EgoOrientで$mathbf+4.4$で上回っている。
- 参考スコア(独自算出の注目度): 3.4997248570131343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about intentions and actions from a first-person (egocentric) perspective remains a fundamental challenge for multimodal large language models (MLLMs). Unlike third-person (exocentric) videos that capture scenes from an outside observer, egocentric videos reflect the actor's continuously changing viewpoint, introducing partial observability, limited field of view, and self-referenced motion. We introduce $\textbf{EgoVITA}$, a reinforcement learning framework that enables MLLMs to reason through structured planning and verification. Built on Group Relative Policy Optimization (GRPO), EgoVITA alternates between two stages: (1) an $\textbf{egocentric planning phase}$, where the model reasons from a first-person viewpoint to predict a step-by-step plan of future actions, and (2) an $\textbf{exocentric verification phase}$, where it switches to a third-person perspective to check the visual and logical consistency of that plan. Through GRPO, the model learns to make plans that are causally predictive of upcoming visual observations, leading to more coherent and visually grounded reasoning. EgoVITA achieves significant gains on egocentric reasoning tasks, outperforming the baseline Qwen2.5-VL-7B by $\mathbf{+7.7}$ on EgoBlind and $\mathbf{+4.4}$ on EgoOrient, while maintaining strong generalization on exocentric video tasks.
- Abstract(参考訳): 一対一(自中心)の観点からの意図と行動に関する推論は、マルチモーダル大言語モデル(MLLM)の根本的な課題である。
外部のオブザーバーからシーンを撮影する3人目の(外向的な)ビデオとは異なり、エゴセントリックなビデオは俳優の視点を継続的に変化させ、部分的な観察性、視野の制限、自己参照的な動きを導入している。
我々はMLLMが構造化計画と検証を通じて推論できる強化学習フレームワークである$\textbf{EgoVITA}$を紹介した。
グループ相対政策最適化(GRPO)に基づいて構築されたEgoVITAは、(1)$\textbf{egocentric planning phase}$、(2)$\textbf{exocentric verification phase}$、(2)$\textbf{exocentric verification phase}$の2つの段階を切り替えて、その計画の視覚的および論理的整合性をチェックする。
GRPOを通じて、モデルは今後の視覚的観察を因果的に予測する計画を立てることを学び、より一貫性があり、視覚的に根ざした推論へと繋がる。
EgoVITA は、EgoBlind で $\mathbf{+7.7}$、EgoOrient で $\mathbf{+4.4}$ で、ベースライン Qwen2.5-VL-7B を上回りながら、EgoOrient で $\mathbf{+4.4}$ を強く一般化している。
関連論文リスト
- EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations [4.252119151012245]
EgoWorld(エゴワールド)は、エゴセントリックな視点を、豊富なエゴセントリックな視点から再構築する新しいフレームワークである。
提案手法は,推定された遠心深度マップから点雲を再構成し,それをエゴセントリックな視点に再投影し,拡散に基づくインペインティングを適用して,密集した意味的コヒーレントなエゴセントリックな画像を生成する。
EgoWorldは最先端のパフォーマンスを実現し、新しいオブジェクト、アクション、シーン、主題への堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-06-22T04:21:48Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoVLM: Policy Optimization for Egocentric Video Understanding [2.397572703240721]
本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
論文 参考訳(メタデータ) (2025-06-03T17:28:00Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。