論文の概要: EgoVLM: Policy Optimization for Egocentric Video Understanding
- arxiv url: http://arxiv.org/abs/2506.03097v1
- Date: Tue, 03 Jun 2025 17:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.450772
- Title: EgoVLM: Policy Optimization for Egocentric Video Understanding
- Title(参考訳): EgoVLM:エゴセントリックビデオ理解のためのポリシー最適化
- Authors: Ashwin Vinod, Shrey Pandit, Aditya Vavre, Linshen Liu,
- Abstract要約: 本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
- 参考スコア(独自算出の注目度): 2.397572703240721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging embodied AI applications, such as wearable cameras and autonomous agents, have underscored the need for robust reasoning from first person video streams. We introduce EgoVLM, a vision-language model specifically designed to integrate visual comprehension and spatial-temporal reasoning within egocentric video contexts. EgoVLM is fine-tuned via Group Relative Policy Optimization (GRPO), a reinforcement learning method adapted to align model outputs with human-like reasoning steps. Following DeepSeek R1-Zero's approach, we directly tune using RL without any supervised fine-tuning phase on chain-of-thought (CoT) data. We evaluate EgoVLM on egocentric video question answering benchmarks and show that domain-specific training substantially improves performance over general-purpose VLMs. Our EgoVLM-3B, trained exclusively on non-CoT egocentric data, outperforms the base Qwen2.5-VL 3B and 7B models by 14.33 and 13.87 accuracy points on the EgoSchema benchmark, respectively. By explicitly generating reasoning traces, EgoVLM enhances interpretability, making it well-suited for downstream applications. Furthermore, we introduce a novel keyframe-based reward that incorporates salient frame selection to guide reinforcement learning optimization. This reward formulation opens a promising avenue for future exploration in temporally grounded egocentric reasoning.
- Abstract(参考訳): ウェアラブルカメラや自律エージェントといった新しいAIアプリケーションは、一人称ビデオストリームからの堅牢な推論の必要性を強調している。
我々は,エゴセントリックなビデオコンテキスト内に視覚的理解と空間的推論を統合するために設計された視覚言語モデルであるEgoVLMを紹介した。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
DeepSeek R1-Zeroのアプローチに従えば、チェーン・オブ・ソート(CoT)データに対する教師付き微調整フェーズなしで直接RLをチューニングできる。
我々は、エゴセントリックなビデオ質問応答ベンチマークでEgoVLMを評価し、ドメイン固有のトレーニングが汎用VLMよりも性能を大幅に向上することを示す。
我々のEgoVLM-3Bは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、EgoSchemaベンチマークでは13.87精度で上回っている。
推論トレースを明示的に生成することで、EgoVLMは解釈可能性を高め、下流アプリケーションに適している。
さらに,有能なフレーム選択を取り入れた新しいキーフレームベースの報酬を導入し,強化学習の最適化を導出する。
この報酬の定式化は、時相的に根拠付けられた自我中心の推論における将来の探索のための有望な道を開く。
関連論文リスト
- ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation [57.38965505987893]
Ego-VPAは、エゴ中心のビデオタスクに対するパラメータ効率の適応である。
Ego-VPAは、わずか0.84%の学習可能なパラメータで軽量な適応を実現している。
論文 参考訳(メタデータ) (2024-07-28T16:01:32Z) - AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。
本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:14:14Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。