論文の概要: V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators
- arxiv url: http://arxiv.org/abs/2604.03307v1
- Date: Tue, 31 Mar 2026 03:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.492885
- Title: V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators
- Title(参考訳): Vリフレクション:パッシブオブザーバからアクティブ・インターロゲータへのMLLM変換
- Authors: Jiazhou Zhou, Yucheng Chen, Hongyang Li, Qing Jiang, Hu Zhou, Ying-Cong Chen, Lei Zhang,
- Abstract要約: V-リフレクション(V-Reflection)は、MLLMを「考える」視覚反射機構を通じてアクティブなインタクタに変換するフレームワークである。
推論の間、潜伏状態は動的プローブとして機能し、視覚的特徴空間を積極的に問う。
V-リフレクションは、タスククリティカルなエビデンスをローカライズする能力を内部化する。
- 参考スコア(独自算出の注目度): 43.642375673675566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success, yet they remain prone to perception-related hallucinations in fine-grained tasks. This vulnerability arises from a fundamental limitation: their reasoning is largely restricted to the language domain, treating visual input as a static, reasoning-agnostic preamble rather than a dynamic participant. Consequently, current models act as passive observers, unable to re-examine visual details to ground their evolving reasoning states. To overcome this, we propose V-Reflection, a framework that transforms the MLLM into an active interrogator through a "think-then-look" visual reflection mechanism. During reasoning, latent states function as dynamic probes that actively interrogate the visual feature space, grounding each reasoning step for task-critical evidence. Our approach employs a two-stage distillation strategy. First, the Box-Guided Compression (BCM) module establishes stable pixel-to-latent targets through explicit spatial grounding. Next, a Dynamic Autoregressive Compression (DAC) module maps the model's hidden states into dynamic probes that interrogate the global visual feature map. By distilling the spatial expertise of the BCM teacher into the DAC student, V-Reflection internalizes the ability to localize task-critical evidence. During inference, both modules remain entirely inactive, maintaining a purely end-to-end autoregressive decoding in the latent space with optimal efficiency. Extensive experiments demonstrate the effectiveness of our V-Reflection across six perception-intensive benchmarks, significantly narrowing the fine-grained perception gap. Visualizations confirm that latent reasoning autonomously localizes task-critical visual evidence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は目覚ましい成功を収めているが、細粒度タスクにおける知覚関連幻覚の傾向は残されている。
この脆弱性は基本的な制限から生じ、推論は言語領域に大きく制限され、視覚入力は動的参加者ではなく静的で推論に依存しないプリアンブルとして扱われる。
結果として、現在のモデルは受動的オブザーバーとして機能し、視覚的詳細を再検査できず、進化する理性状態を理解する。
そこで本稿では,MLLMをアクティブな質問者へ変換するフレームワークであるV-Reflectionを提案する。
推論の間、潜伏状態は動的プローブとして機能し、視覚的特徴空間を積極的に尋問し、各推論ステップをタスククリティカルな証拠の根拠とする。
提案手法は2段階蒸留方式を用いる。
第一に、Box-Guided Compression (BCM)モジュールは、空間的接地によって安定な画素間ターゲットを確立する。
次に、Dynamic Autoregressive Compression (DAC)モジュールがモデルの隠れた状態を動的プローブにマッピングし、グローバルな視覚的特徴マップを問う。
BCM教師の空間的専門知識をDAC学生に蒸留することにより、V-Reflectionはタスククリティカルな証拠をローカライズする能力を内包する。
推論の間、両方のモジュールは完全に不活性であり、最適効率で潜在空間における純粋にエンドツーエンドの自己回帰復号を維持できる。
広汎な実験は、6つの知覚集約ベンチマークでV-反射の有効性を示し、微粒な知覚ギャップを著しく狭めている。
可視化は、潜在推論がタスククリティカルな視覚的証拠を自律的に局所化することを確認した。
関連論文リスト
- Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying [15.728211622542267]
ViThinkerは、要求に応じて専門家による視覚的特徴を合成するきっかけとなる意思決定トークンを視覚言語モデルが自律的に生成することを可能にするフレームワークである。
ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
論文 参考訳(メタデータ) (2026-02-02T22:29:57Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs [44.71703930770065]
The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。
知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
論文 参考訳(メタデータ) (2025-12-17T20:22:23Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。