論文の概要: CHASD: Language Increment-Calibrated Contrastive Decoding against Hallucination in LVLMs
- arxiv url: http://arxiv.org/abs/2605.23344v1
- Date: Fri, 22 May 2026 08:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.254201
- Title: CHASD: Language Increment-Calibrated Contrastive Decoding against Hallucination in LVLMs
- Title(参考訳): CHASD:LVLMにおける幻覚に対する言語インクリメント校正コントラストデコーディング
- Authors: Xiaoyi Huang, Kejia Zhang, Zhiming Luo,
- Abstract要約: 本稿では,大規模視覚言語モデルのためのコントラスト型幻覚認識ステップワイドデコーディング(CHASD)を提案する。
CHASDは、次のトークンの最大確率が閾値以下である場合にのみ、不確実性駆動の信頼ゲートを使用してコントラスト分岐を活性化する。
実験の結果,CHASDは強いトレーニングのないベースラインよりも幻覚関連指標を向上し,競争的推論効率が向上することが示された。
- 参考スコア(独自算出の注目度): 16.77211535169488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models have shown strong multimodal reasoning capabilities, yet they remain susceptible to object hallucinations when language priors dominate insufficient or misaligned visual evidence. Training-free contrastive decoding methods mitigate this issue by comparing predictions from original and perturbed visual inputs, but existing approaches either apply global perturbations that may alter useful visual evidence or invoke an additional negative branch at every decoding step. In this paper, we observe that hallucination risks are transient and token-specific: visual attention shifts across generated tokens, while some functional tokens are produced with high confidence and do not require contrastive calibration. Based on this observation, we propose Contrastive Hallucination-Aware Step-wise Decoding (CHASD) for Large Vision-Language Models, an inference-time framework for "calibration on demand". CHASD uses an uncertainty-driven confidence gate to activate the contrastive branch only when the maximum probability of the next-token is less than the threshold, and constructs the negative branch through attention-guided localized perturbations of the currently salient visual tokens. This design reduces unnecessary negative-branch forward passes while preserving the original distribution for high-confidence steps. Experiments on POPE, AMBER, MME, MMHal-Bench, and CHAIR show that CHASD improves hallucination-related metrics over strong training-free baselines with competitive inference efficiency.
- Abstract(参考訳): 大きな視覚言語モデルは強力なマルチモーダル推論能力を示してきたが、言語が不十分または不整合な視覚的証拠を支配している場合、それらは対象の幻覚に影響を受けやすいままである。
トレーニングなしの対照的な復号法は、元の視覚入力と摂動視覚入力の予測を比較することでこの問題を軽減するが、既存のアプローチでは、有用な視覚的証拠を変更するようなグローバルな摂動を適用したり、デコーディングの各ステップで追加の負の分岐を起動する。
本稿では,幻覚リスクが過渡的かつトークン固有であることを示す: 生成トークン間で視覚的注意がシフトする一方,機能トークンは高い信頼性で生成され,対照的な校正を必要としない。
本研究は,「需要の校正」のための推論時フレームワークであるLarge Vision-Language Modelsに対して,Contrastive Hallucination-Aware Step-wise Decoding (CHASD)を提案する。
CHASDは、次のトークンの最大確率が閾値より小さい場合にのみ、不確実性駆動の信頼ゲートを使用してコントラスト分岐を活性化し、現在有意な視覚トークンの注意誘導局所摂動によって負の分岐を構築する。
この設計は、高信頼ステップのために元の分布を保ちながら、不要な負分岐フォワードを減少させる。
POPE, AMBER, MME, MMHal-Bench, CHAIRの実験により, CHASDは, 高いトレーニング自由ベースラインと競争的推論効率で幻覚関連指標を改善することが示された。
関連論文リスト
- HTDC: Hesitation-Triggered Differential Calibration for Mitigating Hallucination in Large Vision-Language Models [0.7252027234425333]
Hesitation-Triggered Differential Inference (HTDC)は、標準のフルブランチ推論を保存するトレーニング不要のデコードフレームワークである。
Hesitation-Triggered Differential Inference は、強いタスク精度を維持しながら、常に幻覚を減少させる。
論文 参考訳(メタデータ) (2026-04-13T22:47:27Z) - Focus Matters: Phase-Aware Suppression for Hallucination in Vision-Language Models [8.304027910542446]
大規模視覚言語モデル(LVLM)における視覚エンコーダの内部的注意ダイナミクスについて検討する。
分析の結果,幻覚の挙動は集中期において注目度が低いトークンに特に敏感であることが判明した。
本稿では、フォーカスフェーズにおいて、このようなトークンを選択的に抑制する軽量な推論時間介入を提案する。
論文 参考訳(メタデータ) (2026-04-04T02:46:58Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models [4.677212795400693]
弱い構造的監督下での視覚のパッチ動作は、物体幻覚の寄与要因として機能する。
SDCD(Structure-Disrupted Contrastive Decoding)と呼ばれる学習不要のアルゴリズムを導入する。
この構造のない視点下で高い信頼を維持するトークンをペナライズすることにより、SDCDはテクスチャ駆動バイアスを効果的に抑制する。
論文 参考訳(メタデータ) (2026-01-07T01:27:58Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding [6.115580421973011]
大規模視覚言語モデル(LVLM)は多モーダルタスクにおいて顕著な能力を示すが、視覚入力を誤解釈する傾向があり、幻覚や信頼できない出力をもたらすことが多い。
本稿では,視覚的トークンの不確実性を定量化し,不確実なトークンを選択的にマスクしてデコードを改善する新しい推論時間手法であるDropout Decodingを提案する。
CHAIR, THRONE, MMBenchなどのベンチマークによる評価では、Dropout Decodingはオブジェクト幻覚(OH)を大幅に低減し、LVLM出力の信頼性と品質を向上させる。
論文 参考訳(メタデータ) (2024-12-09T13:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。