論文の概要: Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring
- arxiv url: http://arxiv.org/abs/2601.13879v1
- Date: Tue, 20 Jan 2026 11:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.291527
- Title: Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring
- Title(参考訳): チェーン・オブ・ワット圧縮は盲目ではない:デュアルパスアンカリングによる効率的なマルチモーダル推論のためのV-スキップ
- Authors: Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Hiajun Zhang,
- Abstract要約: CoT(Chain-of-Thought)推論は遅延制限を禁止します。
本稿では,V-Skipを導入し,V-Achored Information Bottleneck (VA-IB) 最適化問題としてトークンプルーニングを再構成する。
Qwen2-VLとLlama-3.2ファミリーの実験では、V-Skipが29倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 23.216623546034114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Chain-of-Thought (CoT) reasoning significantly enhances the performance of Multimodal Large Language Models (MLLMs), its autoregressive nature incurs prohibitive latency constraints. Current efforts to mitigate this via token compression often fail by blindly applying text-centric metrics to multimodal contexts. We identify a critical failure mode termed Visual Amnesia, where linguistically redundant tokens are erroneously pruned, leading to hallucinations. To address this, we introduce V-Skip that reformulates token pruning as a Visual-Anchored Information Bottleneck (VA-IB) optimization problem. V-Skip employs a dual-path gating mechanism that weighs token importance through both linguistic surprisal and cross-modal attention flow, effectively rescuing visually salient anchors. Extensive experiments on Qwen2-VL and Llama-3.2 families demonstrate that V-Skip achieves a $2.9\times$ speedup with negligible accuracy loss. Specifically, it preserves fine-grained visual details, outperforming other baselines over 30\% on the DocVQA.
- Abstract(参考訳): CoT(Chain-of-Thought)推論はMLLM(Multimodal Large Language Models)の性能を大幅に向上させるが、自己回帰的な性質は遅延制限を禁止している。
トークン圧縮によってこれを緩和しようとする現在の取り組みは、テキスト中心のメトリクスをマルチモーダルなコンテキストに盲目的に適用することで失敗することが多い。
言語的に冗長なトークンが誤って刈り取られ、幻覚に繋がる視覚アムネシアと呼ばれる致命的な障害モードを同定する。
これを解決するために、V-Skipを導入し、トークンプルーニングをビジュアルアンコール情報ボトルネック (VA-IB) 最適化問題として再構成する。
V-Skipはデュアルパスゲーティング機構を採用しており、言語的サブプライムとクロスモーダルの両方の注意フローを通じてトークンの重要性を重み付け、視覚的に有意なアンカーを効果的に回収する。
Qwen2-VLとLlama-3.2ファミリーの大規模な実験では、V-Skipが2.9\times$のスピードアップを達成した。
具体的には、細かな視覚的詳細を保存し、DocVQAの30倍以上の他のベースラインを上回ります。
関連論文リスト
- ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better [59.29940512530982]
推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-21T10:11:17Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration [8.192590936983347]
LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:35:40Z) - Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation [46.3194503355054]
大規模視覚言語モデル(LVLM)は多様なマルチモーダルタスクにまたがる印象的な機能を示している。
視覚幻覚(VH)の影響を受けやすく、自信はあるが不正確な記述をしばしば生み出す。
推論中の注意パターンを直接調整することで幻覚を緩和するフレームワークであるVisFlowを紹介した。
論文 参考訳(メタデータ) (2025-06-14T19:10:22Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。