論文の概要: Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
- arxiv url: http://arxiv.org/abs/2510.15440v1
- Date: Fri, 17 Oct 2025 08:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.544827
- Title: Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
- Title(参考訳): Select Less, Reason More: ビデオ推論におけるエビデンスパーティの優先順位付け
- Authors: Xuchen Li, Xuzhao Li, Shiyu Hu, Kaiqi Huang,
- Abstract要約: 我々は、我々の中核哲学に基づく新たなエビデンス優先適応フレームワーク「Select Less, Reason More」を提案する。
我々のコアコントリビューションは、エビデンス認識強化学習(EARL)フレームワークであり、モデルがエビデンスの積極的な尋問者へと変換される。
我々のEARL学習モデルは,オープンソースビデオLLMの新たな最先端化を実現し,有効かつ高純度な視覚的エビデンス選択ポリシーを同時に学習する。
- 参考スコア(独自算出の注目度): 28.18935003656782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video reasoning remains a major challenge for Video Large Language Models (Video LLMs), as static uniform frame sampling leads to information dilution and obscures critical evidence. Furthermore, existing pixel-space video reasoning agents, which are designed to actively interact with the video to acquire new visual information, remain suboptimal due to their lack of rigorous reward mechanisms to enforce evidence purity and their inability to perform temporal information supplementation beyond pre-sampled frames. To address this critical gap, we propose a novel evidence-prioritized adaptive framework built upon our core philosophy: "Select Less, Reason More." Our core contribution is the evidence-aware reinforcement learning (EARL) framework, which transforms the model into an active interrogator of evidence. EARL is precisely engineered to dynamically select the most relevant frames and, crucially, to perform localized re-sampling around the selected key frames to access fine-grained temporal detail. Extensive experiments on five demanding video reasoning benchmarks demonstrate that our EARL-trained model achieves new state-of-the-art among open-source Video LLMs, simultaneously learning an effective and high-purity visual evidence selection policy. Impressively, our 7B model achieves 59.8% on LongVideoBench, 69.0% on MVBench and 64.9% on VideoMME. These results highlight the importance of prioritizing evidence purity and the effectiveness of our framework.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, ビデオLLM) では、静的一様フレームサンプリングが情報の希釈と重要な証拠の曖昧化につながるため、長文ビデオ推論が依然として大きな課題となっている。
さらに、新しい視覚情報を取得するためにビデオと活発に対話するように設計された既存の画素空間ビデオ推論エージェントは、証拠の純度を強制する厳密な報酬機構の欠如と、事前にサンプリングされたフレームを超えて時間的情報補完を行うことができないために、サブ最適のままである。
この重要なギャップに対処するため、我々は我々の中核となる哲学に基づいて構築された新しいエビデンス優先適応フレームワーク「Select Less, Reason More」を提案する。
我々のコアコントリビューションは、エビデンス認識強化学習(EARL)フレームワークであり、モデルがエビデンスの積極的な尋問者へと変換される。
EARLは、最も関連性の高いフレームを動的に選択し、決定されたキーフレームの周りで局所的な再サンプリングを行い、きめ細かい時間的詳細にアクセスするために、正確に設計されている。
5つの要求ビデオ推論ベンチマークによる大規模な実験により、EARL学習モデルがオープンソースビデオLLMの新たな最先端性を実現し、有効かつ高純度な視覚的エビデンス選択ポリシーを同時に学習することを示した。
興味深いことに、我々の7BモデルはLongVideoBenchで59.8%、MVBenchで69.0%、VideoMMEで64.9%を達成している。
これらの結果は, 証拠の純度を優先することの重要性と, 枠組みの有効性を強調した。
関連論文リスト
- VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding [9.415923244280542]
VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。
提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
論文 参考訳(メタデータ) (2026-02-04T00:08:35Z) - VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence [24.51106324851909]
RULER-Benchは、認知ルールの観点から、映像生成モデルの推論能力を評価するために設計されたベンチマークである。
生成された各ビデオの評価のために、4つのメトリクスをカバーするチェックリストを構築し、GPT-o3を利用して各質問にスコアを割り当てる。
実験により、最先端のモデルはルールコヒーレンスメートル法で48.87%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-12-02T10:29:51Z) - ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding [10.320439319212463]
本稿では,新たなCausal Information Bottleneck(CIB)の助けを借りて,選択を最適化問題として定式化するフレームワークを提案する。
具体的には、ReaSonは学習可能なポリシーネットワークを使用して、視覚的に関係のある候補フレームのプールから選択し、予測効率を捕捉し、カウンターファクトリアルを介して因果的必要性を評価する。
論文 参考訳(メタデータ) (2025-11-16T09:56:57Z) - FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting [62.25888935329454]
本稿では,長編ビデオによる思考の概念を紹介し,新しいフレームワークFrameThinkerを提案する。
FrameThinkerは,処理フレーム数を劇的に削減しつつ,ベースラインよりも+10.4%の大幅な平均改善を実現していることを示す。
最も注目すべきは、7BモデルであるFrameThinkerがLongVideo-Reason上で新しい最先端技術を確立し、平均20.6フレームで76.1%の精度を実現したことです。
論文 参考訳(メタデータ) (2025-09-29T05:36:58Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文 参考訳(メタデータ) (2025-06-18T03:23:56Z) - VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。