論文の概要: SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.03500v1
- Date: Wed, 07 Jan 2026 01:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.104895
- Title: SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models
- Title(参考訳): SDCD:大規模視覚言語モデルにおける幻覚の緩和のための構造破壊コントラスト復号法
- Authors: Yuxuan Xia, Siheng Wang, Peng Li,
- Abstract要約: 弱い構造的監督下での視覚のパッチ動作は、物体幻覚の寄与要因として機能する。
SDCD(Structure-Disrupted Contrastive Decoding)と呼ばれる学習不要のアルゴリズムを導入する。
この構造のない視点下で高い信頼を維持するトークンをペナライズすることにより、SDCDはテクスチャ駆動バイアスを効果的に抑制する。
- 参考スコア(独自算出の注目度): 4.677212795400693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) demonstrate significant progress in multimodal understanding and reasoning, yet object hallucination remains a critical challenge. While existing research focuses on mitigating language priors or high-level statistical biases, they often overlook the internal complexities of the visual encoding process. We identify that visual statistical bias, arising from the inherent Bag-of-Patches behavior of Vision Encoders under weak structural supervision, acts as a contributing factor of object hallucinations. Under this bias, models prioritize local texture features within individual patches over holistic geometric structures. This tendency may induce spurious visual confidence and result in hallucinations. To address this, we introduce a training-free algorithm called Structure-Disrupted Contrastive Decoding (SDCD), which performs contrastive calibration of the output distribution by introducing a shuffled structure-disrupted view. By penalizing tokens that maintain high confidence under this structure-less view, SDCD effectively suppresses the texture-driven bias. Experimental results demonstrate that SDCD significantly mitigates hallucinations across multiple benchmarks and enhances the overall multimodal capabilities of LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はマルチモーダル理解と推論において大きな進歩を示すが、対象幻覚は依然として重要な課題である。
既存の研究では、言語先行や高レベルの統計バイアスの緩和に焦点が当てられているが、視覚的符号化プロセスの内部の複雑さを見落としていることが多い。
視覚的統計的偏見は,視覚エンコーダの固有なBag-of-Patches行動から生じるものであり,物体幻覚の要因として機能する。
このバイアスの下で、モデルは全体幾何学的構造よりも個々のパッチ内の局所的なテクスチャの特徴を優先する。
この傾向は視覚的自信を刺激し、幻覚を引き起こす。
そこで本研究では,構造破壊型コントラストデコーディング (SDCD) という,構造破壊型ビューの導入による出力分布のコントラストキャリブレーションを行うトレーニングフリーアルゴリズムを提案する。
この構造のない視点下で高い信頼を維持するトークンをペナライズすることにより、SDCDはテクスチャ駆動バイアスを効果的に抑制する。
実験により、SDCDは複数のベンチマークで幻覚を著しく軽減し、LVLMの全体的なマルチモーダル能力を向上することが示された。
関連論文リスト
- Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.036659182106806]
本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。
我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文 参考訳(メタデータ) (2025-08-05T14:05:15Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。