論文の概要: Mitigate Language Priors in Large Vision-Language Models by Cross-Images Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2505.10634v1
- Date: Thu, 15 May 2025 18:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.368466
- Title: Mitigate Language Priors in Large Vision-Language Models by Cross-Images Contrastive Decoding
- Title(参考訳): クロスイメージコントラスト復号による大規模視覚言語モデルにおけるマイティゲート言語
- Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng,
- Abstract要約: 言語先行は、LVLM(Large Vision-Language Models)における幻覚の主要な原因の1つである
LVLMにおける言語先行を緩和するクロスイメージコントラストデコーディング(CICD)を提案する。
実験の結果,CICDは言語先行の緩和に優れていた。
- 参考スコア(独自算出の注目度): 11.385588803559733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language priors constitute one of the primary causes of hallucinations in Large Vision-Language Models (LVLMs), driving the models to generate linguistically plausible yet visually inconsistent content. The language priors in LVLMs originate from the linguistic knowledge inherited from their pre-trained Large Language Model (LLM) backbone. Consequently, this characteristic is an intrinsic property of the model that remains independent of visual inputs. Inspired by the finding that language priors are consistent across images, we propose Cross-Image Contrastive Decoding (CICD), a simple yet effective training-free method to alleviate language priors in LVLMs. CICD first identifies essential and detrimental priors, and then employs contrastive decoding to eliminate the detrimental ones. This approach simultaneously prevents LVLMs from generating hallucinated content while maintaining textual fluency and coherence. Furthermore, the limited information overlap between images helps prevent visual information loss during contrastive decoding. We validate the effectiveness of CICD on four benchmarks with six LVLMs. Our experiments demonstrate that CICD performs remarkably well in mitigating language priors, especially in the image captioning task, where such priors are most pronounced. Code will be released once accepted.
- Abstract(参考訳): 言語先行は、LVLM(Large Vision-Language Models)における幻覚の主要な原因の1つであり、言語的に可視だが視覚的に一貫性のないコンテンツを生成するためにモデルを動かす。
LVLMの先行言語は、事前訓練されたLarge Language Model (LLM)のバックボーンから継承された言語知識に由来する。
したがって、この特性は視覚入力に依存しないモデルの本質的な性質である。
言語先行が画像間で一貫性があることに着想を得て,LVLMにおける言語先行を緩和するための,単純かつ効果的なトレーニング不要な訓練手法であるクロスイメージコントラストデコーディング(CICD)を提案する。
CICDはまず本質的で有害な前駆体を特定し、その後、有害な前駆体を排除するために対照的な復号法を用いる。
このアプローチは、LVLMがテキストの流布とコヒーレンスを維持しながら幻覚コンテンツを生成するのを同時に防止する。
さらに、画像間の情報重複が制限されることで、コントラスト復号時の視覚情報損失を防止できる。
6つのLVLMを用いた4つのベンチマークでCICDの有効性を検証した。
実験の結果、CICDは、特に画像キャプションタスクにおいて、言語先行を緩和する上で、顕著に優れた性能を発揮した。
コードは一度受け入れられるとリリースされる。
関連論文リスト
- ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.24397677839652]
マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。
モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。
VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文 参考訳(メタデータ) (2025-03-17T12:30:40Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - MASS: Overcoming Language Bias in Image-Text Matching [15.922356794782965]
マルチモーダルASsociation Score (MASS) は、画像テキストマッチング問題において、より正確な視覚的精度を実現するために、言語への依存を減らすためのフレームワークである。
実験の結果,MASSは言語構成性の理解を失うことなく,言語バイアスを効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2025-01-20T12:56:28Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:24:27Z) - VLind-Bench: Measuring Language Priors in Large Vision-Language Models [16.69706832823002]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。
それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされる。
我々は,LVLMの言語先行性を測定するために設計された最初のベンチマークであるVLind-Benchという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-13T00:00:20Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Chain of Thought Prompt Tuning in Vision Language Models [29.85907584680661]
本稿では,視覚言語モデリングのための思考プロンプトチューニング手法を提案する。
私たちは、視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。
論文 参考訳(メタデータ) (2023-04-16T23:59:25Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。