論文の概要: Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.10436v1
- Date: Fri, 15 Nov 2024 18:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:42.191963
- Title: Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
- Title(参考訳): 幻覚を目標とした直接選好最適化による多モーダル大言語モデルにおける幻覚の緩和
- Authors: Yuhan Fu, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Xirong Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。
MLLMにおける幻覚を低減するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入する。
- 参考スコア(独自算出の注目度): 26.263592737768214
- License:
- Abstract: Multimodal Large Language Models (MLLMs) are known to hallucinate, which limits their practical applications. Recent works have attempted to apply Direct Preference Optimization (DPO) to enhance the performance of MLLMs, but have shown inconsistent improvements in mitigating hallucinations. To address this issue more effectively, we introduce Hallucination-targeted Direct Preference Optimization (HDPO) to reduce hallucinations in MLLMs. Unlike previous approaches, our method tackles hallucinations from their diverse forms and causes. Specifically, we develop three types of preference pair data targeting the following causes of MLLM hallucinations: (1) insufficient visual capabilities, (2) long context generation, and (3) multimodal conflicts. Experimental results demonstrate that our method achieves superior performance across multiple hallucination evaluation datasets, surpassing most state-of-the-art (SOTA) methods and highlighting the potential of our approach. Ablation studies and in-depth analyses further confirm the effectiveness of our method and suggest the potential for further improvements through scaling up.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。
近年,MLLMの性能向上にはDPO(Direct Preference Optimization)の適用が試みられているが,幻覚の緩和には矛盾する改善が見られた。
この問題をより効果的に解決するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入し,MLLMにおける幻覚を低減する。
従来の手法とは異なり,本手法は様々な形態や原因から幻覚に対処する。
具体的には,1)視覚能力の不足,(2)コンテキスト生成の長期化,(3)マルチモーダルコンフリクトという,MLLM幻覚の次の原因をターゲットとした3種類の選好ペアデータを開発する。
実験結果から,本手法は複数の幻覚評価データセットにまたがって優れた性能を示し,ほとんどのSOTA法を超越し,アプローチの可能性を強調した。
アブレーション研究と深部分析により,本手法の有効性がさらに確認され,スケールアップによるさらなる改善の可能性が示唆された。
関連論文リスト
- HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs [7.920981206857122]
大型視覚言語モデル(LVM)は、大型言語モデル(LLM)を視覚的知覚能力で拡張する。
信頼性を損なう大きな課題は、LVMが妥当だが事実的に不正確な情報を生成できるというオブジェクト幻覚である。
本稿では,この幻覚を緩和するための新しい視覚的対向摂動(VAP)法を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:31:00Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。