論文の概要: EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2605.21931v1
- Date: Thu, 21 May 2026 03:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.067283
- Title: EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models
- Title(参考訳): EvoVid: ビデオ大言語モデルのための時間中心の自己進化
- Authors: Shiqi Huang, Ziyue Wang, Zhongrong Zuo, Han Qiu, Qi She, Bihan Wen,
- Abstract要約: ビデオ大言語モデル(ビデオ-LLM)は、強化学習(RL)による映像推論において強力な能力を示した。
本稿では,ビデオLLMが生の無注釈ビデオから直接改善できる時間中心の自己進化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.97714162696323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Video Large Language Models (Video-LLMs) have demonstrated strong capabilities in video reasoning through reinforcement learning (RL). However, existing RL pipelines rely heavily on human-annotated tasks and solutions, making them costly to scale and fundamentally constrained by human expertise. Self-evolving frameworks have recently emerged as a promising alternative through autonomous Questioner-Solver self-play. Unfortunately, these approaches are primarily designed for static modalities such as text and images, fundamentally failing to capture the temporal dynamics that are central to video reasoning. In this work, we propose $\textbf{EvoVid}$, a temporal-centric self-evolving framework that enables Video-LLMs to improve directly from raw, unannotated videos. Specifically, we introduce two complementary temporal-centric rewards: a temporal-aware Questioner reward that encourages temporally dependent question generation through temporal perturbation sensitivity, and a temporal-grounded Solver reward that provides automatic temporal supervision via inherent video segment localization. Extensive experiments across four base models and six benchmarks demonstrate consistent improvements over both base models and existing self-evolving baselines, achieving competitive performance with supervised methods. These results highlight temporal-centric self-evolution as an effective and scalable paradigm for video understanding and reasoning.
- Abstract(参考訳): 最近のビデオ大言語モデル (Video-LLMs) は、強化学習 (RL) によるビデオ推論において強力な能力を示している。
しかし、既存のRLパイプラインは、人間に注釈付けされたタスクやソリューションに大きく依存しているため、人間の専門知識によってスケーラビリティと根本的な制約がかかる。
自己進化型フレームワークは、最近、自律的な質問・回答型セルフプレイを通じて、有望な代替手段として登場した。
残念なことに、これらのアプローチは主にテキストや画像のような静的なモダリティのために設計されており、基本的にビデオ推論の中心となる時間的ダイナミクスを捉えていない。
本稿では,ビデオLLMが生の未注釈ビデオから直接改善できる時間中心の自己進化フレームワークである$\textbf{EvoVid}$を提案する。
具体的には、時間的摂動感度による時間的依存的な質問生成を促す時間的意識的質問報酬と、固有のビデオセグメントのローカライゼーションによる時間的監督を提供する時間的接地型ソルバー報酬という2つの補完的な時間的中心報酬を導入する。
4つのベースモデルと6つのベンチマークにわたる大規模な実験は、ベースモデルと既存の自己進化ベースラインの両方に対して一貫した改善を示し、教師付きメソッドとの競合性能を実現している。
これらの結果は、時間中心の自己進化をビデオ理解と推論のための効果的でスケーラブルなパラダイムとして強調する。
関連論文リスト
- STRIVE: Structured Spatiotemporal Exploration for Reinforcement Learning in Video Question Answering [28.670443420523796]
STRIVEは質問応答のための構造化強化学習フレームワークである。
報酬シグナルを豊かにし、より安定的で情報的なポリシー更新を促進する。
時間的カバレッジを維持しながら、入力問題に最も関連するフレームを優先順位付けする。
論文 参考訳(メタデータ) (2026-04-02T09:35:27Z) - Incentivizing Temporal-Awareness in Egocentric Video Understanding Models [51.40541228498294]
マルチモーダル大言語モデル(MLLM)は近年,視覚的理解において高い性能を示したが,時間的認識が欠如していることが多い。
この欠損は、時間的推論に明示的に報酬を与えず、フレームレベルの空間的ショートカットに依存する訓練目的の一部に起因している。
本稿では,MLLMにおける時間的意識を高めるために,検証可能な報酬(RLVR)アルゴリズムを用いた強化学習である時間的グローバルポリシー最適化(TGPO)を提案する。
論文 参考訳(メタデータ) (2026-03-28T08:02:59Z) - Video Understanding: Through A Temporal Lens [5.153774021264937]
この論文は、映像要素間の時間的関係を利用して映像理解を促進する方法について、中心的な疑問を提起する。
本研究は,(1)大規模視覚言語モデルを用いた自動アノテーションフレームワークと,(2)低データ状態における時間的ダイナミクスを捉えるためのパラメータ効率のよい微調整戦略,(3)高効率な長期ビデオモデリングのためのステートスペースレイヤの統合,(4)動きと映像の微妙な関係を明示的にモデル化する新しいコントラスト学習フレームワークを提示する。
論文 参考訳(メタデータ) (2026-01-31T12:01:09Z) - VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning [18.15310805625469]
マルチモーダルビデオ言語モデル(Video-LMs)を評価するための新しいベンチマークであるKnow-Showを提案する。
Know-Showは、空間的(人、物、人、物)と時間的次元の5つのシナリオからなる単一の評価枠組み内での推論と局所化を統一する。
Charades、Action Genome、Ego4Dから2.5万の人間の言語質問で作られたこのベンチマークは、現在のビデオ-LMと人間の推論の間に大きなギャップを露呈している。
このギャップを埋めるために、我々は、きめ細かい接地でビデオ-LMを増強するトレーニング不要なプラグインであるGRAMを提案する。
論文 参考訳(メタデータ) (2025-12-05T08:15:49Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。
T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文 参考訳(メタデータ) (2025-03-19T10:50:03Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。