論文の概要: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2311.16839v2
- Date: Tue, 6 Feb 2024 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:37:10.805634
- Title: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization
- Title(参考訳): 幻覚を超えて:幻覚を意識した直接参照最適化によるLVLMの強化
- Authors: Zhiyuan Zhao, Bin Wang, Linke Ouyang, Xiaoyi Dong, Jiaqi Wang, Conghui
He
- Abstract要約: 本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)を提案する。
3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。
- 参考スコア(独自算出の注目度): 45.53216822981202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models have made significant advancements in recent
years, yet they still suffer from a common issue known as the "hallucination
problem", in which the models generate textual descriptions that inaccurately
depict or entirely fabricate content from associated images. This paper
introduces a novel solution, Hallucination-Aware Direct Preference Optimization
(HA-DPO), which reframes the hallucination problem as a preference selection
task. The model is trained to favor the non-hallucinating response when
presented with two responses of the same image (one accurate and one
hallucinatory). Furthermore, this paper proposes an efficient pipeline for
constructing positive~(non-hallucinatory) and negative~(hallucinatory) sample
pairs, ensuring a high-quality, style-consistent dataset for robust preference
learning. When applied to three mainstream multimodal models, HA-DPO
significantly reduced hallucination issues and amplified the models'
generalization capabilities. Notably, the MiniGPT-4 model, when enhanced with
HA-DPO, demonstrated a substantial improvement: POPE accuracy rose from 51.13%
to 86.13% (an absolute improvement of 35%), and the MME score surged from
932.00 to 1326.46 (a relative improvement of 42.32%). The codes, models, and
datasets are made accessible at https://opendatalab.github.io/HA-DPO.
- Abstract(参考訳): マルチモーダルな大言語モデルは近年大きな進歩を遂げているが、それらがいまだに「幻覚問題」と呼ばれる共通の問題に悩まされている。
本稿では,幻覚選択課題を嗜好選択タスクとして再構成する新しい解ha-dpo(hallucination-aware direct preference optimization)を提案する。
モデルは、同じ画像の2つの応答(1つの精度と1つの幻覚)が提示されたとき、非幻覚応答を優先するように訓練される。
さらに本論文では,ポジティブ~(非幻覚的)とネガティブ~(幻覚的)のサンプルペアを構築し,ロバストな選好学習のための高品質でスタイル一貫性のあるデータセットを実現する効率的なパイプラインを提案する。
3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。
POPEの精度は51.13%から86.13%(絶対値35%)に向上し、MMEのスコアは962.00から1326.46(相対値42.32%)に上昇した。
コード、モデル、データセットはhttps://opendatalab.github.io/HA-DPOでアクセス可能である。
関連論文リスト
- Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization [26.263592737768214]
MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。
MLLMにおける幻覚を低減するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入する。
論文 参考訳(メタデータ) (2024-11-15T18:56:01Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。