論文の概要: Reducing Hallucinations in LLMs via Factuality-Aware Preference Learning
- arxiv url: http://arxiv.org/abs/2601.03027v1
- Date: Tue, 06 Jan 2026 14:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.962167
- Title: Reducing Hallucinations in LLMs via Factuality-Aware Preference Learning
- Title(参考訳): ファクチュアリティを考慮した選好学習によるLLMの幻覚の低減
- Authors: Sindhuja Chaduvula, Ahmed Y. Radwan, Azib Farooq, Yani Ioannou, Shaina Raza,
- Abstract要約: 本稿では,F-DPO (Factuality-aware Direct Preference Optimization) を紹介する。
DPOペアを2つのファクトアリティ指標と合成幻覚的変種で拡張することで、ファクトアウェアな嗜好データを構築する。
F-DPOは補助的な報酬モデルやトークンレベルのアノテーション、マルチステージトレーニングを必要としない。
- 参考スコア(独自算出の注目度): 7.2665116919613135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference alignment methods such as RLHF and Direct Preference Optimization (DPO) improve instruction following, but they can also reinforce hallucinations when preference judgments reward fluency and confidence over factual correctness. We introduce F-DPO (Factuality-aware Direct Preference Optimization), a simple extension of DPO that uses only binary factuality labels. F-DPO (i) applies a label-flipping transformation that corrects misordered preference pairs so the chosen response is never less factual than the rejected one, and (ii) adds a factuality-aware margin that emphasizes pairs with clear correctness differences, while reducing to standard DPO when both responses share the same factuality. We construct factuality-aware preference data by augmenting DPO pairs with binary factuality indicators and synthetic hallucinated variants. Across seven open-weight LLMs (1B-14B), F-DPO consistently improves factuality and reduces hallucination rates relative to both base models and standard DPO. On Qwen3-8B, F-DPO reduces hallucination rates by five times (from 0.424 to 0.084) while improving factuality scores by 50 percent (from 5.26 to 7.90). F-DPO also generalizes to out-of-distribution benchmarks: on TruthfulQA, Qwen2.5-14B achieves plus 17 percent MC1 accuracy (0.500 to 0.585) and plus 49 percent MC2 accuracy (0.357 to 0.531). F-DPO requires no auxiliary reward model, token-level annotations, or multi-stage training.
- Abstract(参考訳): RLHF や Direct Preference Optimization (DPO) のような選好アライメント手法は、以下の命令を改善するが、嗜好判断が事実の正しさよりも正確さと信頼を報いるときの幻覚の強化も可能である。
本稿では,F-DPO (Factuality-aware Direct Preference Optimization) を紹介する。
F-DPO
i) ラベルフリップ変換を適用して、不順序な選好ペアを補正することで、選択された応答が拒否されたものよりも事実上劣らないようにし、
(ii) 両応答が同一の事実性を共有する場合に標準DPOに還元しつつ, 明確な正しさ差のペアを強調する, 事実性を考慮したマージンを付加する。
DPOペアを2つのファクトアリティ指標と合成幻覚的変種で拡張することで、ファクトアウェアな嗜好データを構築する。
7つのオープンウェイト LLM (1B-14B) 全体で、F-DPOは一貫して事実性を改善し、ベースモデルと標準DPOの両方と比較して幻覚率を低下させる。
Qwen3-8Bでは、F-DPOは幻覚率を5倍(0.424から0.084まで)削減し、事実性スコアを50%(5.26から7.90まで)改善する。
トゥルースフルQAではQwen2.5-14Bが17%のMC1精度(0.500 - 0.585)と49%のMC2精度(0.357 - 0.531)を達成している。
F-DPOは補助的な報酬モデルやトークンレベルのアノテーション、マルチステージトレーニングを必要としない。
関連論文リスト
- Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - TARS: MinMax Token-Adaptive Preference Strategy for MLLM Hallucination Reduction [17.776737597391843]
MLLM(Multimodal large language model)は、視覚的推論を可能にするが、実際は正しくない、あるいは視覚的に見当たらない出力を生成することが多い。
直接選好最適化(DPO)は、モデル出力を人間の選好と整合させることで幻覚を補正する一般的な戦略である。
本稿では,DPO を min-max 最適化問題として再構成するトークン適応型選好戦略である TARS を提案する。
論文 参考訳(メタデータ) (2025-07-29T08:39:19Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文 参考訳(メタデータ) (2025-01-11T21:41:27Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。