Fugu-MT 論文翻訳(概要): Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

論文の概要: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2311.16839v2
Date: Tue, 6 Feb 2024 16:43:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 19:37:10.805634
Title: Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
Title（参考訳）: 幻覚を超えて:幻覚を意識した直接参照最適化によるLVLMの強化
Authors: Zhiyuan Zhao, Bin Wang, Linke Ouyang, Xiaoyi Dong, Jiaqi Wang, Conghui He
Abstract要約: 本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)を提案する。 3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。
参考スコア（独自算出の注目度）: 45.53216822981202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models have made significant advancements in recent years, yet they still suffer from a common issue known as the "hallucination problem", in which the models generate textual descriptions that inaccurately depict or entirely fabricate content from associated images. This paper introduces a novel solution, Hallucination-Aware Direct Preference Optimization (HA-DPO), which reframes the hallucination problem as a preference selection task. The model is trained to favor the non-hallucinating response when presented with two responses of the same image (one accurate and one hallucinatory). Furthermore, this paper proposes an efficient pipeline for constructing positive~(non-hallucinatory) and negative~(hallucinatory) sample pairs, ensuring a high-quality, style-consistent dataset for robust preference learning. When applied to three mainstream multimodal models, HA-DPO significantly reduced hallucination issues and amplified the models' generalization capabilities. Notably, the MiniGPT-4 model, when enhanced with HA-DPO, demonstrated a substantial improvement: POPE accuracy rose from 51.13% to 86.13% (an absolute improvement of 35%), and the MME score surged from 932.00 to 1326.46 (a relative improvement of 42.32%). The codes, models, and datasets are made accessible at https://opendatalab.github.io/HA-DPO.
Abstract（参考訳）: マルチモーダルな大言語モデルは近年大きな進歩を遂げているが、それらがいまだに「幻覚問題」と呼ばれる共通の問題に悩まされている。本稿では,幻覚選択課題を嗜好選択タスクとして再構成する新しい解ha-dpo(hallucination-aware direct preference optimization)を提案する。モデルは、同じ画像の2つの応答(1つの精度と1つの幻覚)が提示されたとき、非幻覚応答を優先するように訓練される。さらに本論文では,ポジティブ～(非幻覚的)とネガティブ～(幻覚的)のサンプルペアを構築し,ロバストな選好学習のための高品質でスタイル一貫性のあるデータセットを実現する効率的なパイプラインを提案する。 3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。 POPEの精度は51.13%から86.13%(絶対値35%)に向上し、MMEのスコアは962.00から1326.46(相対値42.32%)に上昇した。コード、モデル、データセットはhttps://opendatalab.github.io/HA-DPOでアクセス可能である。

関連論文リスト

Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization [40.68121267969432]
既存の嗜好アライメント手法は、画像-テキストのモダリティアライメントを無視しながら、人間の嗜好とモデル応答の整合性に重点を置いている。改良されたモダリティアライメントを実現するエンティティ中心型マルチモーダル参照最適化(EMPO)を提案する。 EMPOは、Object-HalBenchで85.9%、MM-HalBenchで49.8%の幻覚率を減少させる。
論文参考訳（メタデータ） (2025-06-04T15:03:50Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文参考訳（メタデータ） (2024-11-26T09:42:07Z)
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization [26.263592737768214]
MLLM(Multimodal Large Language Models)は幻覚として知られており、実用性に制限がある。 MLLMにおける幻覚を低減するために,Halucination-targeted Direct Preference Optimization (HDPO)を導入する。
論文参考訳（メタデータ） (2024-11-15T18:56:01Z)
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T17:56:38Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文参考訳（メタデータ） (2024-04-16T07:14:32Z)
Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文参考訳（メタデータ） (2024-03-20T22:05:18Z)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。提案手法は,好ましくないデータを生成するための2段階のアプローチである。広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-02-18T00:56:16Z)
Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文参考訳（メタデータ） (2023-08-11T21:35:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。