論文の概要: Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.10436v1
- Date: Fri, 15 Nov 2024 18:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:42.191963
- Title: Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
- Title(参考訳): 幻覚を目標とした直接選好最適化による多モーダル大言語モデルにおける幻覚の緩和
- Authors: Yuhan Fu, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Xirong Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。
MLLMにおける幻覚を低減するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入する。
- 参考スコア(独自算出の注目度): 26.263592737768214
- License:
- Abstract: Multimodal Large Language Models (MLLMs) are known to hallucinate, which limits their practical applications. Recent works have attempted to apply Direct Preference Optimization (DPO) to enhance the performance of MLLMs, but have shown inconsistent improvements in mitigating hallucinations. To address this issue more effectively, we introduce Hallucination-targeted Direct Preference Optimization (HDPO) to reduce hallucinations in MLLMs. Unlike previous approaches, our method tackles hallucinations from their diverse forms and causes. Specifically, we develop three types of preference pair data targeting the following causes of MLLM hallucinations: (1) insufficient visual capabilities, (2) long context generation, and (3) multimodal conflicts. Experimental results demonstrate that our method achieves superior performance across multiple hallucination evaluation datasets, surpassing most state-of-the-art (SOTA) methods and highlighting the potential of our approach. Ablation studies and in-depth analyses further confirm the effectiveness of our method and suggest the potential for further improvements through scaling up.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。
近年,MLLMの性能向上にはDPO(Direct Preference Optimization)の適用が試みられているが,幻覚の緩和には矛盾する改善が見られた。
この問題をより効果的に解決するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入し,MLLMにおける幻覚を低減する。
従来の手法とは異なり,本手法は様々な形態や原因から幻覚に対処する。
具体的には,1)視覚能力の不足,(2)コンテキスト生成の長期化,(3)マルチモーダルコンフリクトという,MLLM幻覚の次の原因をターゲットとした3種類の選好ペアデータを開発する。
実験結果から,本手法は複数の幻覚評価データセットにまたがって優れた性能を示し,ほとんどのSOTA法を超越し,アプローチの可能性を強調した。
アブレーション研究と深部分析により,本手法の有効性がさらに確認され,スケールアップによるさらなる改善の可能性が示唆された。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback [16.24562885483636]
ファイングレード人工知能フィードバック(FGAIF)によるLVLM(Large Vision-Language Models)のモダリティ調整手法を提案する。
具体的には、まずAIツールを用いて、応答の各セグメントの幻覚のタイプを予測し、細かなフィードバックの収集を行う。次に、収集された報酬データに基づいて、3つの特別な報酬モデルを訓練し、密集した報酬を生成する。最後に、新しいきめ細かいフィードバックモジュールをプロキシポリシー最適化(PPO)アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-04-07T19:00:45Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization [45.53216822981202]
本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)を提案する。
3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。
論文 参考訳(メタデータ) (2023-11-28T14:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。