論文の概要: Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding
- arxiv url: http://arxiv.org/abs/2410.13321v1
- Date: Thu, 17 Oct 2024 08:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:07.256806
- Title: Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding
- Title(参考訳): 概要誘導復号による大規模視覚言語モデルにおける幻覚の緩和
- Authors: Kyungmin Min, Minbeom Kim, Kang-il Lee, Dongryeol Lee, Kyomin Jung,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
我々は,SGD(Session-Guided Decoding)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 14.701135083174918
- License:
- Abstract: Large Vision-Language Models (LVLMs) demonstrate impressive capabilities in generating detailed and coherent responses from visual inputs. However, they are prone to generate hallucinations due to an over-reliance on language priors. To address this issue, we investigate the language priors in LVLMs and make two key observations: (1) Even when predicting the tokens associated with image-related part-of-speech (POS), models increasingly rely on linguistic priors as the token sequences grow, thereby amplifying hallucinations. (2) Methods that directly calibrate LVLM's output distribution to mitigate language priors can lead to a degradation in text quality or even exacerbate hallucinations. Based on these findings, we propose a novel method, Summary-Guided Decoding (SGD). This method naturally encourages the model to focus more on image information by reducing the text context through summaries, while controlling only the image-related POS tokens to maintain text quality. Through experiments, we demonstrate that SGD achieves state-of-the-art performance on object hallucination benchmarks. Furthermore, in terms of the trade-off between precision and recall, SGD achieves Pareto optimality among the existing methods. Lastly, we observe that although existing methods struggle to balance the reduction of object hallucinations with maintaining text quality, SGD demonstrates robustness in handling this challenge.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する能力を示す。
しかし、言語先行への依存度が高すぎるため、幻覚を起こす傾向にある。
この問題に対処するために,LVLMにおける言語先行を調査し,(1)画像関連部分音声(POS)に関連するトークンを予測する場合においても,トークン列が大きくなるにつれて,モデルが言語先行にますます依存し,幻覚を増幅する,という2つの重要な観察を行った。
2)LVLMの出力分布を直接校正する手法は,テキスト品質の低下や幻覚の悪化につながる可能性がある。
これらの知見に基づいて,SGD(Session-Guided Decoding)という新しい手法を提案する。
本手法は,テキストの品質を維持するために,画像関連POSトークンのみを制御しながら,要約を通じてテキストコンテキストを小さくすることで,モデルが画像情報にもっと焦点を合わせることを自然に促す。
実験により,SGDがオブジェクト幻覚ベンチマークの最先端性能を達成することを示す。
さらに、精度とリコールのトレードオフの観点から、SGDは既存の手法のパレート最適性を達成している。
最後に,既存の手法はテキスト品質の維持とオブジェクト幻覚の低減のバランスをとるのに苦労しているが,SGDはこの課題に対処する上で堅牢性を示す。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。