論文の概要: Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
- arxiv url: http://arxiv.org/abs/2510.15440v1
- Date: Fri, 17 Oct 2025 08:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.544827
- Title: Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
- Title(参考訳): Select Less, Reason More: ビデオ推論におけるエビデンスパーティの優先順位付け
- Authors: Xuchen Li, Xuzhao Li, Shiyu Hu, Kaiqi Huang,
- Abstract要約: 我々は、我々の中核哲学に基づく新たなエビデンス優先適応フレームワーク「Select Less, Reason More」を提案する。
我々のコアコントリビューションは、エビデンス認識強化学習(EARL)フレームワークであり、モデルがエビデンスの積極的な尋問者へと変換される。
我々のEARL学習モデルは,オープンソースビデオLLMの新たな最先端化を実現し,有効かつ高純度な視覚的エビデンス選択ポリシーを同時に学習する。
- 参考スコア(独自算出の注目度): 28.18935003656782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video reasoning remains a major challenge for Video Large Language Models (Video LLMs), as static uniform frame sampling leads to information dilution and obscures critical evidence. Furthermore, existing pixel-space video reasoning agents, which are designed to actively interact with the video to acquire new visual information, remain suboptimal due to their lack of rigorous reward mechanisms to enforce evidence purity and their inability to perform temporal information supplementation beyond pre-sampled frames. To address this critical gap, we propose a novel evidence-prioritized adaptive framework built upon our core philosophy: "Select Less, Reason More." Our core contribution is the evidence-aware reinforcement learning (EARL) framework, which transforms the model into an active interrogator of evidence. EARL is precisely engineered to dynamically select the most relevant frames and, crucially, to perform localized re-sampling around the selected key frames to access fine-grained temporal detail. Extensive experiments on five demanding video reasoning benchmarks demonstrate that our EARL-trained model achieves new state-of-the-art among open-source Video LLMs, simultaneously learning an effective and high-purity visual evidence selection policy. Impressively, our 7B model achieves 59.8% on LongVideoBench, 69.0% on MVBench and 64.9% on VideoMME. These results highlight the importance of prioritizing evidence purity and the effectiveness of our framework.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, ビデオLLM) では、静的一様フレームサンプリングが情報の希釈と重要な証拠の曖昧化につながるため、長文ビデオ推論が依然として大きな課題となっている。
さらに、新しい視覚情報を取得するためにビデオと活発に対話するように設計された既存の画素空間ビデオ推論エージェントは、証拠の純度を強制する厳密な報酬機構の欠如と、事前にサンプリングされたフレームを超えて時間的情報補完を行うことができないために、サブ最適のままである。
この重要なギャップに対処するため、我々は我々の中核となる哲学に基づいて構築された新しいエビデンス優先適応フレームワーク「Select Less, Reason More」を提案する。
我々のコアコントリビューションは、エビデンス認識強化学習(EARL)フレームワークであり、モデルがエビデンスの積極的な尋問者へと変換される。
EARLは、最も関連性の高いフレームを動的に選択し、決定されたキーフレームの周りで局所的な再サンプリングを行い、きめ細かい時間的詳細にアクセスするために、正確に設計されている。
5つの要求ビデオ推論ベンチマークによる大規模な実験により、EARL学習モデルがオープンソースビデオLLMの新たな最先端性を実現し、有効かつ高純度な視覚的エビデンス選択ポリシーを同時に学習することを示した。
興味深いことに、我々の7BモデルはLongVideoBenchで59.8%、MVBenchで69.0%、VideoMMEで64.9%を達成している。
これらの結果は, 証拠の純度を優先することの重要性と, 枠組みの有効性を強調した。
関連論文リスト
- FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting [62.25888935329454]
本稿では,長編ビデオによる思考の概念を紹介し,新しいフレームワークFrameThinkerを提案する。
FrameThinkerは,処理フレーム数を劇的に削減しつつ,ベースラインよりも+10.4%の大幅な平均改善を実現していることを示す。
最も注目すべきは、7BモデルであるFrameThinkerがLongVideo-Reason上で新しい最先端技術を確立し、平均20.6フレームで76.1%の精度を実現したことです。
論文 参考訳(メタデータ) (2025-09-29T05:36:58Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文 参考訳(メタデータ) (2025-06-18T03:23:56Z) - VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。