Fugu-MT 論文翻訳(概要): Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models

論文の概要: Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2505.10634v4
Date: Thu, 07 Aug 2025 16:23:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 16:47:38.950096
Title: Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models
Title（参考訳）: クロスイメージコントラストデコーディング:大規模視覚言語モデルにおける言語先行の正確で無意味な抑制
Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng,
Abstract要約: 言語先行性への過度依存は、LVLM(Large Vision-Language Models)における幻覚の主要な原因である最近の研究では、訓練なしの解として対照的な復号化が検討されている。我々は、非関連画像をコントラスト視覚入力として利用する、シンプルで効果的なトレーニング不要なクロスイメージコントラストデコーディング(CICD)を提案する。
参考スコア（独自算出の注目度）: 11.385588803559733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over-reliance on language priors is a major cause of hallucinations in Large Vision-Language Models (LVLMs), often leading to outputs that are linguistically plausible but visually inconsistent. Recent studies have explored contrastive decoding as a training-free solution. However, these methods typically construct contrastive visual inputs by perturbing the original image, resulting in distorted contrastive distributions, incomplete contrastive signals, and excessive suppression of language priors. Motivated by the observation that language priors tend to remain consistent across different images, we propose Cross-Image Contrastive Decoding (CICD), a simple yet effective training-free method that uses unrelated images as contrastive visual inputs. To address the issue of over-suppressing language priors, which can negatively affect the quality of generated responses, we further introduce a dynamic selection mechanism based on the cross-image differences in model behavior. By selectively suppressing language priors, our method reduces hallucinations without compromising the model's performance. Extensive experiments across multiple benchmarks and LVLMs confirm the effectiveness and generalizability of CICD, particularly in image captioning, where language priors are especially dominant.
Abstract（参考訳）: LVLM(Large Vision-Language Models)における幻覚の主要な原因は、言語学的に妥当だが視覚的に矛盾するアウトプットに繋がる。最近の研究では、訓練なしの解として対照的な復号化が検討されている。しかし、これらの手法は、典型的には、元のイメージをゆがめ、歪んだコントラスト分布、不完全なコントラスト信号、言語先行の過剰な抑制をもたらすことで、コントラスト的な視覚入力を構成する。言語先行が異なる画像間で一貫性を保つ傾向にあるという観察に触発されて,非関連画像をコントラスト視覚入力として使用する,シンプルで効果的なトレーニング不要なCICD(Cross-Image Contrastive Decoding)を提案する。生成した応答の質に悪影響を及ぼすような過剰な言語プレッシャーの問題に対処するために,モデル行動のクロスイメージ差に基づく動的選択機構を導入する。言語先行性を選択的に抑制することにより、モデルの性能を損なうことなく幻覚を減らすことができる。複数のベンチマークやLVLMにわたる大規模な実験により、CICDの有効性と一般化性が確認されている。

関連論文リスト

ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.24397677839652]
マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。 VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文参考訳（メタデータ） (2025-03-17T12:30:40Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
MASS: Overcoming Language Bias in Image-Text Matching [15.922356794782965]
マルチモーダルASsociation Score (MASS) は、画像テキストマッチング問題において、より正確な視覚的精度を実現するために、言語への依存を減らすためのフレームワークである。実験の結果,MASSは言語構成性の理解を失うことなく,言語バイアスを効果的に軽減できることがわかった。
論文参考訳（メタデータ） (2025-01-20T12:56:28Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-17T08:24:27Z)
VLind-Bench: Measuring Language Priors in Large Vision-Language Models [16.69706832823002]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされる。我々は,LVLMの言語先行性を測定するために設計された最初のベンチマークであるVLind-Benchという新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-13T00:00:20Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文参考訳（メタデータ） (2023-11-28T16:26:35Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Chain of Thought Prompt Tuning in Vision Language Models [29.85907584680661]
本稿では,視覚言語モデリングのための思考プロンプトチューニング手法を提案する。私たちは、視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。
論文参考訳（メタデータ） (2023-04-16T23:59:25Z)
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。 2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文参考訳（メタデータ） (2022-07-24T23:50:52Z)
FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2021-11-09T17:15:38Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。