論文の概要: Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2603.04977v1
- Date: Thu, 05 Mar 2026 09:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.161387
- Title: Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding
- Title(参考訳): 長いビデオ理解のための仮説検証型マルチエージェントフレームワーク、Think, Then Verify
- Authors: Zheng Wang, Haoran Chen, Haoxuan Qin, Zhipeng Wei, Tianwen Qian, Cong Bai,
- Abstract要約: VideoHV-Agentは、構造化仮説検証プロセスとしてビデオ質問応答を再構成するフレームワークである。
ビデオHV-Agentは,解釈性の向上,論理的音質の向上,計算コストの低減を実現し,最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 25.82963105515627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video understanding is challenging due to dense visual redundancy, long-range temporal dependencies, and the tendency of chain-of-thought and retrieval-based agents to accumulate semantic drift and correlation-driven errors. We argue that long-video reasoning should begin not with reactive retrieval, but with deliberate task formulation: the model must first articulate what must be true in the video for each candidate answer to hold. This thinking-before-finding principle motivates VideoHV-Agent, a framework that reformulates video question answering as a structured hypothesis-verification process. Based on video summaries, a Thinker rewrites answer candidates into testable hypotheses, a Judge derives a discriminative clue specifying what evidence must be checked, a Verifier grounds and tests the clue using localized, fine-grained video content, and an Answer agent integrates validated evidence to produce the final answer. Experiments on three long-video understanding benchmarks show that VideoHV-Agent achieves state-of-the-art accuracy while providing enhanced interpretability, improved logical soundness, and lower computational cost. We make our code publicly available at: https://github.com/Haorane/VideoHV-Agent.
- Abstract(参考訳): 深い視覚的冗長性、長距離時間的依存、およびセマンティックドリフトと相関駆動エラーを蓄積するチェーン・オブ・シントおよび検索ベースエージェントの傾向により、長いビデオ理解は困難である。
長いビデオの推論は、リアクティブ検索ではなく、意図的なタスクの定式化から始まるべきだ、と我々は主張する。
この思考に先立つ原理は、構造化仮説検証プロセスとしてビデオ質問応答を再構成するVideoHV-Agentを動機付けている。
ビデオ要約に基づいて、Thinkerは、回答候補を検証可能な仮説に書き換え、裁判官は、どのエビデンスをチェックしなければならないかを特定する識別的手がかりを導き、検証者は、局所的できめ細かいビデオコンテンツを使用して手がかりを根拠としてテストし、Answerエージェントは、検証された証拠を統合して最終回答を生成する。
ビデオHV-Agentの3つの長ビデオ理解ベンチマーク実験は、解釈性の向上、論理的健全性の向上、計算コストの低減を実現しつつ、最先端の精度を実現していることを示している。
コードは、https://github.com/Haorane/VideoHV-Agent.comで公開しています。
関連論文リスト
- Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning [32.71093573332936]
VideoDRは、オープンウェブ環境でビデオエージェントを研究するための最初のビデオディープリサーチベンチマークである。
VideoDRは、ビデオ条件付きオープンドメインのビデオ質問応答、クロスフレームの視覚的アンカー抽出、インタラクティブなWeb検索、共同ビデオとWebのエビデンスに対するマルチホップ推論などに焦点を当てている。
論文 参考訳(メタデータ) (2026-01-11T15:07:37Z) - VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice [88.93674345138054]
CoT推論(Chain-of-thinkt)は、ビデオ理解タスクにおけるマルチモーダルな大規模言語モデルのための強力なツールとして登場した。
本稿では,ビデオ理解フレームワークであるVideoAuto-R1を提案する。
論文 参考訳(メタデータ) (2026-01-08T18:00:59Z) - Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Video-CoM: Interactive Video Reasoning via Chain of Manipulations [78.64256470920166]
Interactive Video Reasoningを導入し、モデルが「ビデオについて考える」ことができるようにします。
当社のモデルである Video CoM は,CoM (Chain of Manipulations) を介し,証拠を収集・精査するための反復的な視覚行動を行う。
Video CoMは9つのビデオ推論ベンチマークで強い結果を出し、最近のアートモデルと比べて平均性能を3.6%向上させた。
論文 参考訳(メタデータ) (2025-11-28T18:59:57Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。