論文の概要: EVA: Efficient Reinforcement Learning for End-to-End Video Agent
- arxiv url: http://arxiv.org/abs/2603.22918v1
- Date: Tue, 24 Mar 2026 08:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.375379
- Title: EVA: Efficient Reinforcement Learning for End-to-End Video Agent
- Title(参考訳): EVA: エンドツーエンドビデオエージェントの効率的な強化学習
- Authors: Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)によるビデオ理解は、ビデオの長いトークンシーケンスのため、依然として困難である。
エンド・ツー・エンド・ビデオ・エージェントのための効率的な強化学習フレームワークであるEVAを提案する。
EVAは、何を見るか、いつ見るか、どのように見るかを自律的に決定し、クエリ駆動で効率的なビデオ理解を実現する。
- 参考スコア(独自算出の注目度): 28.603844837930225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.
- Abstract(参考訳): 多モーダル大言語モデル(MLLM)によるビデオ理解は、時間的依存と冗長なフレームを含むビデオの長いトークンシーケンスのため、依然として困難である。
既存のアプローチでは、MLLMを受動的認識器として扱い、ビデオ全体や一様にサンプリングされたフレームを適応的推論なしで処理する。
最近のエージェントベースの手法は外部ツールを導入しているが、手動で設計したワークフローや知覚優先の戦略に依存しており、長いビデオでは効率が良くない。
本稿では,エンド・ツー・エンド・エンド・ビデオエージェントのための効率的な強化学習フレームワークであるEVAについて述べる。
EVAは、何を見るか、いつ見るか、どのように見るかを自律的に決定し、クエリ駆動で効率的なビデオ理解を実現する。
このようなエージェントを訓練するために、教師付き微調整(SFT)、KTO(Kahneman-Tversky Optimization)、GRPO(Generalized Reward Policy Optimization)を含む単純な3段階学習パイプラインを設計した。
さらに、各ステージごとに高品質なデータセットを構築し、安定かつ再現可能なトレーニングをサポートします。
EVAを6つのビデオ理解ベンチマークで評価し、その包括的能力を実証した。
既存のベースラインと比較して、EVAは一般的なMLLMベースラインよりも6-12%大幅に改善され、事前適応剤法よりもさらに1-3%向上した。
私たちのコードとモデルはhttps://github.com/wangruohui/EfficientVideoAgent.comで公開されています。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。