論文の概要: Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
- arxiv url: http://arxiv.org/abs/2503.02846v1
- Date: Tue, 04 Mar 2025 18:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:51.592870
- Title: Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs
- Title(参考訳): Mask-DPO:LLMの一般化可能な微細形状アライメント
- Authors: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen,
- Abstract要約: 大型言語モデル(LLM)は、様々なドメインでAIアシスタントとして機能する際、幻覚(不信または非感覚的な情報)を示す。
学習中に必然的にノイズを発生させる応答レベルの嗜好学習を行う従来の事実アライメント手法。
本稿では,Mask-DPO (Direct Preference Optimization, DPO) に基づくファクトリティアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 56.74916151916208
- License:
- Abstract: Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.
- Abstract(参考訳): 大型言語モデル(LLM)は、様々なドメインでAIアシスタントとして機能する際、幻覚(不信または非感覚的な情報)を示す。
幻覚は LLM 応答において常に真実の内容を伴っているため、学習中に必然的にノイズを発生させる応答レベルの選好学習を行う従来の事実性アライメント手法である。
そこで本研究では,Mask-DPOと呼ばれるDPO(Direct Preference Optimization)に基づくファクトアライメント手法を提案する。
マスク信号として文レベルの事実性を組み込んだMask-DPOは、好まれるサンプルの事実正しい文章からのみ学習し、好ましくないサンプルの事実内容に対するペナルティを防止し、選好学習の曖昧さを解消する。
Mask-DPOは、ドメイン内およびドメイン外の両方のデータセットからの質問に対するLLM応答の事実性を著しく改善することができるが、これらの質問とその対応するトピックはトレーニング中に見つからない。
ANAHテストセットのLlama3.1-8B-インストラクトのスコアは49.19%から77.53%に改善され、Llama3.1-70B-インストラクトのスコア(53.44%)を上回り、ドメイン外バイオグラフィーデータセットのFactScoreも30.29%から39.39%に改善されている。
さらに、異なるトレーニングサンプルスケーリング戦略を用いて、Mask-DPOの一般化特性について検討し、データセット内のトピックのスケーリングが質問数よりも効果的であることを見出した。
我々は、この現象の含意について、LLMが実際に何をしているのかを仮説し、概念実証実験を実施して検証する。
我々は,本手法と知見が,現実性アライメントのスケーリングに関する今後の研究の道を開くことを願っている。
関連論文リスト
- Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。
本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。
本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文 参考訳(メタデータ) (2025-01-22T14:15:46Z) - Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key [24.229983103296988]
幻覚は、LVLM(Large Vision-Language Models)にとって大きな課題である。
本稿では,専門家のフィードバックを一意に活用して幻覚応答を補正するOn-Policy Alignment (OPA)-DPOフレームワークを提案する。
OPA-DPOは、AMBERベンチマークで13.26%、Object-Halベンチマークで5.39%のLLaVA-1.5-7Bの幻覚率をさらに低下させる。
論文 参考訳(メタデータ) (2025-01-16T17:48:03Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。