論文の概要: Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.10634v3
- Date: Tue, 20 May 2025 11:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.385147
- Title: Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models
- Title(参考訳): クロスイメージコントラストデコーディング:大規模視覚言語モデルにおける言語先行の正確で無意味な抑制
- Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng,
- Abstract要約: 言語先行は、LVLM(Large Vision-Language Models)における幻覚の主要な原因である
近年の研究では、トレーニング不要なソリューションとして対照的な復号化が検討されているが、これらの手法は通常、元の画像から負の文脈を構成する。
我々は、異なる画像を用いて負の文脈を構築する、シンプルで効果的なトレーニング不要なクロスイメージコントラストデコーディング(CICD)を提案する。
- 参考スコア(独自算出の注目度): 11.385588803559733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language priors are a major cause of hallucinations in Large Vision-Language Models (LVLMs), often leading to text that is linguistically plausible but visually inconsistent. Recent work explores contrastive decoding as a training-free solution, but these methods typically construct negative contexts from the original image, resulting in visual information loss and distorted distribution. Motivated by the observation that language priors stem from the LLM backbone and remain consistent across images, we propose Cross-Images Contrastive Decoding (CICD), a simple yet effective training-free method that uses different images to construct negative contexts. We further analyze the cross-image behavior of language priors and introduce a distinction between essential priors (supporting fluency) and detrimental priors (causing hallucinations). By selectively preserving essential priors and suppressing detrimental ones, our method reduces hallucinations while maintaining coherent and fluent language generation. Experiments on 4 benchmarks and 6 LVLMs across three model families confirm the effectiveness and generalizability of CICD, especially in image captioning, where language priors are particularly pronounced. Code will be released once accepted.
- Abstract(参考訳): 言語先行は、LVLM(Large Vision-Language Models)における幻覚の主要な原因であり、しばしば言語的に妥当だが視覚的に矛盾するテキストにつながる。
近年の研究では、トレーニング不要のソリューションとして対照的な復号化が検討されているが、これらの手法は、通常、元の画像から負の文脈を構築し、視覚情報損失と歪んだ分布をもたらす。
言語先行はLLMのバックボーンから派生しており、画像間で一貫性を維持しているという観察に触発されて、異なる画像を用いて負の文脈を構築する単純なトレーニング不要な手法であるクロスイメージコントラストデコーディング(CICD)を提案する。
さらに,言語前駆者の横断行動を分析し,本態性前駆者と有害前駆者(幻覚)を区別する。
本手法は, 最重要事項を選択的に保存し, 有害事象を抑制することにより, 一貫性のある言語生成を維持しつつ, 幻覚を低減させる。
3つのモデルファミリーにまたがる4つのベンチマークと6つのLVLM実験により、特に画像キャプションにおけるCICDの有効性と一般化性が確認された。
コードは一度受け入れられるとリリースされる。
関連論文リスト
- Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:24:27Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。