論文の概要: Chain-of-Glimpse: Search-Guided Progressive Object-Grounded Reasoning for Video Understanding
- arxiv url: http://arxiv.org/abs/2604.14692v1
- Date: Thu, 16 Apr 2026 06:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.766673
- Title: Chain-of-Glimpse: Search-Guided Progressive Object-Grounded Reasoning for Video Understanding
- Title(参考訳): Chain-of-Glimpse: ビデオ理解のための検索ガイド付きプログレッシブオブジェクトグラウンド推論
- Authors: Zhixuan Wu, Quanxing Zha, Teng Wang, Genbao Xu, Wenyuan Gu, Wei Rao, Nan Ma, Bo Cheng, Soujanya Poria,
- Abstract要約: Chain-of-Glimpseは、検索誘導型プログレッシブなオブジェクト指向推論フレームワークである。
それぞれの推論ステップを特定の視覚的エビデンス領域に固定し、構成的および多段階の意思決定を可能にする。
- 参考スコア(独自算出の注目度): 38.37873404945267
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video understanding requires identifying and reasoning over semantically discriminative visual objects across frames, yet existing object-agnostic solutions struggle to effectively handle substantial object variations over time. To address this, we introduce Chain-of-Glimpse, a search-guided progressive object-grounded reasoning framework that explicitly anchors each reasoning step to specific visual evidence regions, enabling compositional and multi-step decision-making. Formally, Chain-of-Glimpse formulates video reasoning as a step-by-step process that incrementally builds spatially grounded traces around task-relevant visual objects, thereby mitigating over-reliance on saliency-driven cues. Specifically, Chain-of-Glimpse features a search-guided controller, optimized via reinforcement learning with a format reward that significantly incentivizes grounding capability, to iteratively ground visual evidence regions and form reliable reasoning trajectories, yielding accurate and interpretable multi-step decisions. Extensive evaluations on both in domain NExTQA and out-of-domain Video-Holmes, CG-Bench Reasoning, and VRBench benchmarks demonstrate consistent performance gains, robustness and generalization of Chain-of-Glimpse across diverse video reasoning tasks.
- Abstract(参考訳): ビデオ理解には、フレーム間で意味的に識別される視覚的オブジェクトを識別し、推論する必要があるが、既存のオブジェクトに依存しないソリューションは、時間とともに実質的なオブジェクトのバリエーションを効果的に扱うのに苦労している。
そこで我々は,各推論ステップを特定の視覚的エビデンス領域に明示的に固定し,構成的および多段階の意思決定を可能にする,探索誘導型プログレッシブなオブジェクト指向推論フレームワークであるChain-of-Glimpseを紹介する。
正式には、Chain-of-Glimpseはビデオ推論をステップバイステップのプロセスとして定式化し、タスク関連視覚オブジェクトの周囲に空間的に接地されたトレースを段階的に構築する。
特に、Chain-of-Glimpseは、強化学習によって最適化された検索誘導コントローラを備えており、グラウンド化能力を大幅に向上させ、視覚的エビデンス領域を反復的に基底化し、信頼できる推論軌道を形成し、正確で解釈可能な多段階決定をもたらす。
ドメイン NExTQA と外領域 Video-Holmes 、CG-Bench Reasoning 、VRBench ベンチマークの両方において、さまざまなビデオ推論タスクにおけるChain-of-Glimpse の一貫性、堅牢性、一般化が広く評価されている。
関連論文リスト
- LensWalk: Agentic Video Understanding by Planning How You See in Videos [45.81048261339695]
我々はLensWalkを紹介した。LensWalkは、大規模言語モデル推論器が自身の視覚的観察を積極的に制御できるようにするフレキシブルなエージェントフレームワークである。
LensWalkは、エージェントが各ステップで、観察するビデオの時間的スコープとサンプリング密度を動的に特定する、厳密な理由-計画-観測ループを確立する。
論文 参考訳(メタデータ) (2026-03-25T17:38:54Z) - Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning [14.945921705882725]
この研究はMLLMビデオ理解における知覚と世代間のギャップを埋め、ビデオQAアプリケーションのための解釈可能で忠実な推論パラダイムを提供する。
階層的人間の視覚認知に着想を得たClueNetを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:15:12Z) - Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning [54.9540824532312]
ウィーバー(Weaver)は、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムである。
Weaverは複数の複雑なビデオ推論ベンチマークのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-02-05T16:19:41Z) - RegionReasoner: Region-Grounded Multi-Round Visual Reasoning [69.75509909581133]
RegionReasonerは視覚的推論のための強化学習フレームワークである。
これは、それぞれの推論トレースに対応する参照境界ボックスを明示的に引用することを要求することによって、根拠付き推論を強制する。
RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
論文 参考訳(メタデータ) (2026-02-03T16:52:16Z) - ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning [44.49803237328707]
ReVSegは、事前訓練された視覚言語モデルのネイティブインターフェースにおけるシーケンシャルな決定として推論を実行する。
我々は、多段階推論連鎖を最適化するために強化学習を採用し、モデルが結果駆動信号から判断品質を自己定義できるようにする。
論文 参考訳(メタデータ) (2025-12-02T14:44:12Z) - A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis [64.42659342276117]
ビデオの異常な研究のほとんどは、フレームワイド検出で停止し、なぜイベントが異常なのかについての洞察はほとんど得られない。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T14:49:08Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。