論文の概要: One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination
- arxiv url: http://arxiv.org/abs/2603.10360v1
- Date: Wed, 11 Mar 2026 03:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.759246
- Title: One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination
- Title(参考訳): One Token, Two Fates: Vision Token ManipulationによるMLLMの幻覚に対する統一フレームワーク
- Authors: Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi,
- Abstract要約: 現在のトレーニングフリー手法は、MLLM幻覚に異なる戦略で取り組む。
本稿では,コアアセットであるビジョントークンに着目した統一フレームワークを提案する。
これら2つの役割を調和させることで、我々のフレームワークは視覚言語バランスを効果的に回復する。
- 参考スコア(独自算出の注目度): 46.864482139261675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current training-free methods tackle MLLM hallucination with separate strategies: either enhancing visual signals or suppressing text inertia. However, these separate methods are insufficient due to critical trade-offs: simply enhancing vision often fails against strong language prior, while suppressing language can introduce extra image-irrelevant noise. Moreover, we find their naive combination is also ineffective, necessitating a unified framework. We propose such a framework by focusing on the core asset: the vision token. Our design leverages two key insights: (1) augmented images offer complementary visual semantics, and (2) removing vision tokens (information-gap) isolates hallucination tendencies more precisely than distorting images (modality-gap). Based on these, our framework uses vision tokens in two distinct ways, both operating on latent representations: our Synergistic Visual Calibration (SVC) module incorporates augmented tokens to strengthen visual representations, while our Causal Representation Calibration (CRC) module uses pruned tokens to create latent-space negative samples for correcting internal model biases. By harmonizing these two roles, our framework effectively restores the vision-language balance, significantly reducing object hallucinations, improving POPE accuracy by an average of 2% absolute on LLaVA-1.5 across multiple benchmarks with only a 1.06x inference latency overhead.
- Abstract(参考訳): 現在のトレーニングフリーな方法は、視覚信号の強化やテキスト慣性抑制という、MLLM幻覚に対処する。
しかし、これらの分離された手法は、重要なトレードオフのために不十分である: 単にビジョンを強化することは、しばしば強い言語に対して失敗するが、言語を抑圧することは、余分な画像非関連ノイズをもたらす可能性がある。
さらに、それらの単純な組み合わせも効果がなく、統一されたフレームワークを必要としている。
本稿では,コアアセットであるビジョントークンに着目して,そのようなフレームワークを提案する。
本設計では,(1)画像の視覚的意味を補完し,(2)視覚トークン(情報ギャップ)を除去することで,幻覚傾向を画像(モダリティギャップ)よりも正確に分離する。
我々のSVC(Synergistic Visual Calibration)モジュールは、視覚的表現を強化するために拡張トークンを組み込んでおり、私たちのCRC(Causal Representation Calibration)モジュールは、プルーンドトークンを使用して、内部モデルのバイアスを修正するために潜在空間の負のサンプルを作成する。
これらの2つの役割を調和させることで、我々のフレームワークは視覚と言語間のバランスを効果的に回復し、オブジェクトの幻覚を著しく低減し、LLaVA-1.5で平均2%絶対値のPOPE精度を1.06倍の遅延オーバヘッドしか持たない複数のベンチマークで改善する。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。