論文の概要: Video Evidence to Reasoning Efficient Video Understanding via Explicit Evidence Grounding
- arxiv url: http://arxiv.org/abs/2601.07761v1
- Date: Mon, 12 Jan 2026 17:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.703113
- Title: Video Evidence to Reasoning Efficient Video Understanding via Explicit Evidence Grounding
- Title(参考訳): 明示的エビデンスグラウンドディングによる効率的な映像理解のためのビデオエビデンス
- Authors: Yanxiang Huang, Guohua Gao, Zhaoyang Wei, Jianyuan Ni,
- Abstract要約: Chain of Evidence (CoE)は、アーキテクチャ的に分離し、基礎と推論の効率を最適化する新しいフレームワークである。
CoEは,(1)クエリ誘導フィルタとして機能する軽量エビデンス・グラウンドリング・モジュール(EGM)と(2)強化学習により最適化されたエビデンス・アンチョリング・プロトコルの2つのコアイノベーションを取り入れている。
- 参考スコア(独自算出の注目度): 1.4582793306013615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) face a fundamental dilemma in video reasoning: they are caught between the prohibitive computational costs of verbose reasoning and the hallucination risks of efficient, ungrounded approaches. To resolve this, we introduce the Chain of Evidence (CoE), a novel framework that architecturally decouples and co-optimizes perceptual grounding and reasoning efficiency. CoE incorporates two core innovations: (1) A lightweight Evidence Grounding Module (EGM) that acts as a query-guided filter, dynamically identifying and extracting a compact set of high-fidelity visual evidence; and (2) An Evidence-Anchoring Protocol optimized via Reinforcement Learning. Crucially, we design a composite reward mechanism that enforces process alignment, compelling the model to strictly reference identified temporal anchors during deduction, thereby mitigating hallucinations. To enable this, we construct CoE-Instruct, a large-scale dataset (164k samples) featuring a novel dual-annotation schema for separate perception and reasoning supervision. Extensive experiments on five benchmarks, including Video-MME, MVBench, and VSI-Bench, demonstrate that CoE-enhanced models establish a new state-of-the-art. They significantly outperform existing methods in accuracy, proving CoE to be a powerful and practical paradigm for reliable video understanding.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、ビデオ推論において基本的なジレンマに直面している。
これを解決するために、アーキテクチャ的に分離し、協調して知覚的根拠付けと推論効率を最適化する新しいフレームワーク、CoE(Chain of Evidence)を導入する。
CoEは,(1)クエリ誘導フィルタとして機能する軽量エビデンス・グラウンドリング・モジュール(EGM)と(2)強化学習により最適化されたエビデンス・アンチョリング・プロトコルの2つのコアイノベーションを取り入れている。
重要なことに、我々はプロセスアライメントを強制する複合報酬機構を設計し、そのモデルに推論中に特定された時間的アンカーを厳密に参照させ、幻覚を緩和する。
そこで我々はCoE-Instruct, 大規模データセット(164kサンプル)を構築し, 認識と推論を分離するための新しい二重アノテーションスキーマを構築した。
Video-MME、MVBench、VSI-Benchを含む5つのベンチマークに関する大規模な実験は、CoE強化モデルが新しい最先端技術を確立することを実証している。
CoEは信頼性の高いビデオ理解のための強力で実用的なパラダイムであることが証明された。
関連論文リスト
- VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding [56.7383554589569]
人間のような知性には長いビデオ理解が不可欠であり、時間的文脈を超越したコヒーレントな認識と推論を可能にする。
強化学習に基づく投機的時間的推論フレームワークであるSpecTempを提案する。
我々はSpecTempが競争精度を維持するだけでなく、既存の思考とフレームの手法と比較して推論を著しく加速することを示した。
論文 参考訳(メタデータ) (2025-11-30T09:27:59Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment [29.18869359348712]
私たちはDVidE(Defeasible Video Entailment)を紹介します。
DVidEでは、ビデオ前提とテキスト仮説が考慮され、新しい更新が仮説を強化または弱めるかどうかをモデルが判断しなければならない。
生成タスクにおいて、ASR出力とLLM(Large Language Model)を組み合わせ、一貫性のある文脈に関連のある更新を生成するフレームワークを開発する。
論文 参考訳(メタデータ) (2025-06-27T16:51:15Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。