論文の概要: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2311.16839v1
- Date: Tue, 28 Nov 2023 14:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 18:05:54.279285
- Title: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization
- Title(参考訳): 幻覚を超えて:幻覚を意識した直接参照最適化によるLVLMの強化
- Authors: Zhiyuan Zhao, Bin Wang, Linke Ouyang, Xiaoyi Dong, Jiaqi Wang, Conghui
He
- Abstract要約: 本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)という新しい戦略を紹介する。
提案手法は,幻覚の問題を独自の選好選択問題として扱い,非幻覚反応を好むようにモデルを訓練する。
その結果,幻覚の問題は大幅に減少し,モデルの一般化能力が向上した。
- 参考スコア(独自算出の注目度): 45.53216822981202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models have made significant advancements in recent
years, yet they still suffer from a common issue known as the "hallucination
problem" where the models generate textual descriptions that contain inaccurate
or non-existent content from the image. To address this issue, this paper
introduces a novel strategy: Hallucination-Aware Direct Preference Optimization
(HA-DPO). Our approach treats the hallucination problem as a unique preference
selection issue, where the model is trained to favor the non-hallucinating
response when presented with two responses of the same image (one accurate and
one hallucinating). This paper also presents an efficient process for
constructing hallucination sample pairs to ensure high-quality,
style-consistent pairs for stable HA-DPO training. We applied this strategy to
two mainstream multimodal models, and the results showed a significant
reduction in the hallucination problem and an enhancement in the models'
generalization capabilities. With HA-DPO, the MiniGPT-4 model demonstrates
significant advancements: POPE accuracy increases from 51.13% to 85.66% (34.5%
absolute improvement), and the MME score escalates from 968.58 to 1365.76 (41%
relative improvement). The code, models, and datasets will be made publicly
available.
- Abstract(参考訳): マルチモーダルな大言語モデルは近年大きな進歩を遂げているが、画像から不正確な内容や存在しない内容を含むテキスト記述を生成する「幻覚問題」と呼ばれる共通の問題に悩まされている。
そこで本研究では,Halucination-Aware Direct Preference Optimization (HA-DPO) という新しい手法を提案する。
提案手法では,同画像の2つの応答(1つの精度と1つの幻覚)を提示した場合の非幻覚応答をモデルが好むように,独自の選好選択問題として幻覚問題を扱う。
また,安定なha-dpoトレーニングのための高品質でスタイル一貫性のあるペアを確保するために,幻覚サンプルペアを構築するための効率的なプロセスを提案する。
この戦略を2つの主流マルチモーダルモデルに適用し,幻覚の問題を著しく低減し,モデルの一般化能力を向上した。
POPEの精度は51.13%から85.66%(絶対改善:34.5%)、MMEのスコアは968.58から1365.76(相対改善:41%)に上昇する。
コード、モデル、データセットは公開される予定だ。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。