論文の概要: Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring
- arxiv url: http://arxiv.org/abs/2601.13879v2
- Date: Wed, 21 Jan 2026 05:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.262543
- Title: Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring
- Title(参考訳): チェーン・オブ・ワット圧縮は盲目ではない:デュアルパスアンカリングによる効率的なマルチモーダル推論のためのV-スキップ
- Authors: Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun Zhang,
- Abstract要約: CoT(Chain-of-Thought)推論は遅延制限を禁止します。
本稿では,V-Skipを導入し,V-Achored Information Bottleneck (VA-IB) 最適化問題としてトークンプルーニングを再構成する。
Qwen2-VLとLlama-3.2ファミリーの実験では、V-Skipが29倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 33.98333539584889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Chain-of-Thought (CoT) reasoning significantly enhances the performance of Multimodal Large Language Models (MLLMs), its autoregressive nature incurs prohibitive latency constraints. Current efforts to mitigate this via token compression often fail by blindly applying text-centric metrics to multimodal contexts. We identify a critical failure mode termed Visual Amnesia, where linguistically redundant tokens are erroneously pruned, leading to hallucinations. To address this, we introduce V-Skip that reformulates token pruning as a Visual-Anchored Information Bottleneck (VA-IB) optimization problem. V-Skip employs a dual-path gating mechanism that weighs token importance through both linguistic surprisal and cross-modal attention flow, effectively rescuing visually salient anchors. Extensive experiments on Qwen2-VL and Llama-3.2 families demonstrate that V-Skip achieves a $2.9\times$ speedup with negligible accuracy loss. Specifically, it preserves fine-grained visual details, outperforming other baselines over 30\% on the DocVQA.
- Abstract(参考訳): CoT(Chain-of-Thought)推論はMLLM(Multimodal Large Language Models)の性能を大幅に向上させるが、自己回帰的な性質は遅延制限を禁止している。
トークン圧縮によってこれを緩和しようとする現在の取り組みは、テキスト中心のメトリクスをマルチモーダルなコンテキストに盲目的に適用することで失敗することが多い。
言語的に冗長なトークンが誤って刈り取られ、幻覚に繋がる視覚アムネシアと呼ばれる致命的な障害モードを同定する。
これを解決するために、V-Skipを導入し、トークンプルーニングをビジュアルアンコール情報ボトルネック (VA-IB) 最適化問題として再構成する。
V-Skipはデュアルパスゲーティング機構を採用しており、言語的サブプライムとクロスモーダルの両方の注意フローを通じてトークンの重要性を重み付け、視覚的に有意なアンカーを効果的に回収する。
Qwen2-VLとLlama-3.2ファミリーの大規模な実験では、V-Skipが2.9\times$のスピードアップを達成した。
具体的には、細かな視覚的詳細を保存し、DocVQAの30倍以上の他のベースラインを上回ります。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better [59.29940512530982]
推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-21T10:11:17Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration [8.192590936983347]
LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:35:40Z) - Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation [46.3194503355054]
大規模視覚言語モデル(LVLM)は多様なマルチモーダルタスクにまたがる印象的な機能を示している。
視覚幻覚(VH)の影響を受けやすく、自信はあるが不正確な記述をしばしば生み出す。
推論中の注意パターンを直接調整することで幻覚を緩和するフレームワークであるVisFlowを紹介した。
論文 参考訳(メタデータ) (2025-06-14T19:10:22Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding [6.115580421973011]
大規模視覚言語モデル(LVLM)は多モーダルタスクにおいて顕著な能力を示すが、視覚入力を誤解釈する傾向があり、幻覚や信頼できない出力をもたらすことが多い。
本稿では,視覚的トークンの不確実性を定量化し,不確実なトークンを選択的にマスクしてデコードを改善する新しい推論時間手法であるDropout Decodingを提案する。
CHAIR, THRONE, MMBenchなどのベンチマークによる評価では、Dropout Decodingはオブジェクト幻覚(OH)を大幅に低減し、LVLM出力の信頼性と品質を向上させる。
論文 参考訳(メタデータ) (2024-12-09T13:21:07Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。