論文の概要: Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
- arxiv url: http://arxiv.org/abs/2501.09695v1
- Date: Thu, 16 Jan 2025 17:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:03.745369
- Title: Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
- Title(参考訳): DPOによる大規模視覚言語モデルにおける幻覚の緩和:オン・ポリティィ・データが鍵を保持する
- Authors: Zhihe Yang, Xufang Luo, Dongqi Han, Yunjian Xu, Dongsheng Li,
- Abstract要約: 幻覚は、LVLM(Large Vision-Language Models)にとって大きな課題である。
本稿では,専門家のフィードバックを一意に活用して幻覚応答を補正するOn-Policy Alignment (OPA)-DPOフレームワークを提案する。
OPA-DPOは、AMBERベンチマークで13.26%、Object-Halベンチマークで5.39%のLLaVA-1.5-7Bの幻覚率をさらに低下させる。
- 参考スコア(独自算出の注目度): 24.229983103296988
- License:
- Abstract: Hallucination remains a major challenge for Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) has gained increasing attention as a simple solution to hallucination issues. It directly learns from constructed preference pairs that reflect the severity of hallucinations in responses to the same prompt and image. Nonetheless, different data construction methods in existing works bring notable performance variations. We identify a crucial factor here: outcomes are largely contingent on whether the constructed data aligns on-policy w.r.t the initial (reference) policy of DPO. Theoretical analysis suggests that learning from off-policy data is impeded by the presence of KL-divergence between the updated policy and the reference policy. From the perspective of dataset distribution, we systematically summarize the inherent flaws in existing algorithms that employ DPO to address hallucination issues. To alleviate the problems, we propose On-Policy Alignment (OPA)-DPO framework, which uniquely leverages expert feedback to correct hallucinated responses and aligns both the original and expert-revised responses in an on-policy manner. Notably, with only 4.8k data, OPA-DPO achieves an additional reduction in the hallucination rate of LLaVA-1.5-7B: 13.26% on the AMBER benchmark and 5.39% on the Object-Hal benchmark, compared to the previous SOTA algorithm trained with 16k samples.
- Abstract(参考訳): 幻覚は、LVLM(Large Vision-Language Models)にとって大きな課題である。
DPO(Direct Preference Optimization)は幻覚の簡単な解法として注目されている。
同じプロンプトとイメージに対する幻覚の深刻さを反映した、構築された好みペアから直接学習する。
それでも、既存の作業で異なるデータ構築方法が顕著なパフォーマンスのバリエーションをもたらしている。
結果は、構築されたデータがDPOの初期(参照)ポリシーに沿うかどうかに大きく左右される。
理論的分析は、政治外のデータからの学習は、更新された政策と参照ポリシーの間のKL分割の存在によって妨げられていることを示唆している。
データセット分布の観点からは,DPOを用いて幻覚に対処する既存のアルゴリズムに固有の欠陥を系統的に要約する。
この問題を軽減するために、専門家のフィードバックを独自に活用して幻覚応答を補正し、オリジナルと専門家が修正した応答をオン政治的に整合させるOn-Policy Alignment (OPA)-DPOフレームワークを提案する。
特に、OPA-DPOはわずか4.8kのデータで、AMBERベンチマークでは13.26%、Object-Halベンチマークでは5.39%というLLaVA-1.5-7Bの幻覚率を16kサンプルで訓練されたSOTAアルゴリズムと比較して、さらに減少させる。
関連論文リスト
- A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。
以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。
DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文 参考訳(メタデータ) (2024-10-21T02:27:24Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文 参考訳(メタデータ) (2024-06-16T14:24:30Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
実験効果を総合的に検討し,RLHF-PPOとの比較を行った。
DPOの学習結果のtextbf3D-properties を同定する。
我々はtextbf3D-properties による問題を緩和するための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Human Alignment of Large Language Models through Online Preference
Optimisation [50.52545798589968]
最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
この等価性は、オンラインバージョンのIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプルされ、訓練された選好モデルによって注釈付けされる時である。
本稿では,一般的なNash-MDアルゴリズムと同様に,オンラインポリシと参照ポリシの混在したデータを生成するIPO-MDアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2024-03-13T15:47:26Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。