論文の概要: Mitigate Language Priors in Large Vision-Language Models by Cross-Images Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2505.10634v1
- Date: Thu, 15 May 2025 18:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.368466
- Title: Mitigate Language Priors in Large Vision-Language Models by Cross-Images Contrastive Decoding
- Title(参考訳): クロスイメージコントラスト復号による大規模視覚言語モデルにおけるマイティゲート言語
- Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng,
- Abstract要約: 言語先行は、LVLM(Large Vision-Language Models)における幻覚の主要な原因の1つである
LVLMにおける言語先行を緩和するクロスイメージコントラストデコーディング(CICD)を提案する。
実験の結果,CICDは言語先行の緩和に優れていた。
- 参考スコア(独自算出の注目度): 11.385588803559733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language priors constitute one of the primary causes of hallucinations in Large Vision-Language Models (LVLMs), driving the models to generate linguistically plausible yet visually inconsistent content. The language priors in LVLMs originate from the linguistic knowledge inherited from their pre-trained Large Language Model (LLM) backbone. Consequently, this characteristic is an intrinsic property of the model that remains independent of visual inputs. Inspired by the finding that language priors are consistent across images, we propose Cross-Image Contrastive Decoding (CICD), a simple yet effective training-free method to alleviate language priors in LVLMs. CICD first identifies essential and detrimental priors, and then employs contrastive decoding to eliminate the detrimental ones. This approach simultaneously prevents LVLMs from generating hallucinated content while maintaining textual fluency and coherence. Furthermore, the limited information overlap between images helps prevent visual information loss during contrastive decoding. We validate the effectiveness of CICD on four benchmarks with six LVLMs. Our experiments demonstrate that CICD performs remarkably well in mitigating language priors, especially in the image captioning task, where such priors are most pronounced. Code will be released once accepted.
- Abstract(参考訳): 言語先行は、LVLM(Large Vision-Language Models)における幻覚の主要な原因の1つであり、言語的に可視だが視覚的に一貫性のないコンテンツを生成するためにモデルを動かす。
LVLMの先行言語は、事前訓練されたLarge Language Model (LLM)のバックボーンから継承された言語知識に由来する。
したがって、この特性は視覚入力に依存しないモデルの本質的な性質である。
言語先行が画像間で一貫性があることに着想を得て,LVLMにおける言語先行を緩和するための,単純かつ効果的なトレーニング不要な訓練手法であるクロスイメージコントラストデコーディング(CICD)を提案する。
CICDはまず本質的で有害な前駆体を特定し、その後、有害な前駆体を排除するために対照的な復号法を用いる。
このアプローチは、LVLMがテキストの流布とコヒーレンスを維持しながら幻覚コンテンツを生成するのを同時に防止する。
さらに、画像間の情報重複が制限されることで、コントラスト復号時の視覚情報損失を防止できる。
6つのLVLMを用いた4つのベンチマークでCICDの有効性を検証した。
実験の結果、CICDは、特に画像キャプションタスクにおいて、言語先行を緩和する上で、顕著に優れた性能を発揮した。
コードは一度受け入れられるとリリースされる。
関連論文リスト
- Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:24:27Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。