論文の概要: IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding
- arxiv url: http://arxiv.org/abs/2402.18476v1
- Date: Wed, 28 Feb 2024 16:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:16:08.917338
- Title: IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding
- Title(参考訳): ibd:画像バイアス復号による大規模視覚言語モデルの幻覚緩和
- Authors: Lanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu
- Abstract要約: 言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
- 参考スコア(独自算出の注目度): 37.16880672402059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving rapid developments and with widespread applications, Large
Vision-Language Models (LVLMs) confront a serious challenge of being prone to
generating hallucinations. An over-reliance on linguistic priors has been
identified as a key factor leading to these hallucinations. In this paper, we
propose to alleviate this problem by introducing a novel image-biased decoding
(IBD) technique. Our method derives the next-token probability distribution by
contrasting predictions from a conventional LVLM with those of an image-biased
LVLM, thereby amplifying the correct information highly correlated with image
content while mitigating the hallucinatory errors caused by excessive
dependence on text. We further conduct a comprehensive statistical analysis to
validate the reliability of our method, and design an adaptive adjustment
strategy to achieve robust and flexible handling under varying conditions.
Experimental results across multiple evaluation metrics verify that our method,
despite not requiring additional training data and only with a minimal increase
in model parameters, can significantly reduce hallucinations in LVLMs and
enhance the truthfulness of the generated response.
- Abstract(参考訳): 急速な開発と広範囲の応用にもかかわらず、LVLM(Large Vision-Language Models)は幻覚を生じやすいという深刻な課題に直面している。
言語的先行性への過度な依存は、これらの幻覚につながる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング(IBD)技術を導入することにより,この問題を軽減することを提案する。
本手法は,従来のlvlmと画像バイアスlvlmの予測を対比することにより,テキストへの過度な依存による幻覚的誤りを軽減しつつ,画像内容と高い相関関係にある正しい情報を増幅することにより,次の確率分布を導出する。
さらに,本手法の信頼性を検証するための包括的統計解析を行い,各種条件下での堅牢かつ柔軟な処理を実現するための適応調整戦略を設計する。
複数の評価指標にまたがる実験結果から,学習データの追加は必要とせず,モデルパラメータの最小化のみで,LVLMの幻覚を著しく低減し,生成した応答の真正性を高めることができることがわかった。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z) - CIEM: Contrastive Instruction Evaluation Method for Better Instruction
Tuning [8.217445461627797]
VLM(Vision-Language Models)は、下流のアプリケーションで、例えば存在しないエンティティをキャプションするときに、誤った知覚情報を生成する。
幻覚現象に対処するため,CIEM(Contrastive Instruction Evaluation Method)とCIT(Contrastive Instruction Tuning)を導入する。
既存のVLMに共通する幻覚問題,幻覚現象に対処する現在の指導訓練データセットの障害,およびCIEMおよび公開データセットよりもCIT調整VLMの方が優れていることを指摘する。
論文 参考訳(メタデータ) (2023-09-05T15:06:37Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。