論文の概要: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2311.16839v1
- Date: Tue, 28 Nov 2023 14:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 18:05:54.279285
- Title: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization
- Title(参考訳): 幻覚を超えて:幻覚を意識した直接参照最適化によるLVLMの強化
- Authors: Zhiyuan Zhao, Bin Wang, Linke Ouyang, Xiaoyi Dong, Jiaqi Wang, Conghui
He
- Abstract要約: 本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)という新しい戦略を紹介する。
提案手法は,幻覚の問題を独自の選好選択問題として扱い,非幻覚反応を好むようにモデルを訓練する。
その結果,幻覚の問題は大幅に減少し,モデルの一般化能力が向上した。
- 参考スコア(独自算出の注目度): 45.53216822981202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models have made significant advancements in recent
years, yet they still suffer from a common issue known as the "hallucination
problem" where the models generate textual descriptions that contain inaccurate
or non-existent content from the image. To address this issue, this paper
introduces a novel strategy: Hallucination-Aware Direct Preference Optimization
(HA-DPO). Our approach treats the hallucination problem as a unique preference
selection issue, where the model is trained to favor the non-hallucinating
response when presented with two responses of the same image (one accurate and
one hallucinating). This paper also presents an efficient process for
constructing hallucination sample pairs to ensure high-quality,
style-consistent pairs for stable HA-DPO training. We applied this strategy to
two mainstream multimodal models, and the results showed a significant
reduction in the hallucination problem and an enhancement in the models'
generalization capabilities. With HA-DPO, the MiniGPT-4 model demonstrates
significant advancements: POPE accuracy increases from 51.13% to 85.66% (34.5%
absolute improvement), and the MME score escalates from 968.58 to 1365.76 (41%
relative improvement). The code, models, and datasets will be made publicly
available.
- Abstract(参考訳): マルチモーダルな大言語モデルは近年大きな進歩を遂げているが、画像から不正確な内容や存在しない内容を含むテキスト記述を生成する「幻覚問題」と呼ばれる共通の問題に悩まされている。
そこで本研究では,Halucination-Aware Direct Preference Optimization (HA-DPO) という新しい手法を提案する。
提案手法では,同画像の2つの応答(1つの精度と1つの幻覚)を提示した場合の非幻覚応答をモデルが好むように,独自の選好選択問題として幻覚問題を扱う。
また,安定なha-dpoトレーニングのための高品質でスタイル一貫性のあるペアを確保するために,幻覚サンプルペアを構築するための効率的なプロセスを提案する。
この戦略を2つの主流マルチモーダルモデルに適用し,幻覚の問題を著しく低減し,モデルの一般化能力を向上した。
POPEの精度は51.13%から85.66%(絶対改善:34.5%)、MMEのスコアは968.58から1365.76(相対改善:41%)に上昇する。
コード、モデル、データセットは公開される予定だ。
関連論文リスト
- Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization [26.263592737768214]
MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。
MLLMにおける幻覚を低減するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入する。
論文 参考訳(メタデータ) (2024-11-15T18:56:01Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。