論文の概要: TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.00224v1
- Date: Thu, 30 Apr 2026 20:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.750262
- Title: TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
- Title(参考訳): TUR-DPO:Topology- and Uncertainty-Aware Direct Preference Optimization
- Authors: Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili, Mourad Oussalah,
- Abstract要約: 提案するTUR-DPOは,DPOのトポロジおよび不確実性を考慮した変形であり,解の導出方法に報いる。
これらの信号に対して小さな学習可能な報酬を分解し、RLフリーのままである不確実性重み付きDPO目標に組み込む。
経験的に、7-8Bのオープンモデルとベンチマークは、数学的推論、事実的質問応答、要約、役立ち/無害な対話にまたがっており、TUR-DPOは、DPOに対する判定の勝利率、忠実さ、校正を改善している。
- 参考スコア(独自算出の注目度): 22.1407356439052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human preferences is commonly done via reinforcement learning from human feedback (RLHF) with Proximal Policy Optimization (PPO) or, more simply, via Direct Preference Optimization (DPO). While DPO is stable and RL-free, it treats preferences as flat winner vs. loser signals and is sensitive to noisy or brittle preferences arising from fragile chains of thought. We propose TUR-DPO, a topology- and uncertainty-aware variant of DPO that rewards how answers are derived, not only what they say, by eliciting lightweight reasoning topologies and combining semantic faithfulness, utility, and topology quality into a calibrated uncertainty signal. A small learnable reward is factorized over these signals and incorporated into an uncertainty-weighted DPO objective that remains RL-free and relies only on a fixed or moving reference policy. Empirically, across open 7-8B models and benchmarks spanning mathematical reasoning, factual question answering, summarization, and helpful/harmless dialogue, TUR-DPO improves judge win-rates, faithfulness, and calibration relative to DPO while preserving training simplicity and avoiding online rollouts. We further observe consistent gains in multimodal and long-context settings, and show that TUR-DPO matches or exceeds PPO on reasoning-centric tasks while maintaining operational simplicity.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の好みで調整することは、人間からのフィードバック(RLHF)とPPO(Porximal Policy Optimization)の強化学習、あるいはより簡単にはDPO(Direct Preference Optimization)を通じて行うのが一般的である。
DPOは安定しており、RLを含まないが、選好を平坦な勝者対敗者信号として扱い、思考の脆弱な連鎖から生じるノイズや脆い選好に敏感である。
そこで我々は,DPOのトポロジ・不確実性を意識したTUR-DPOを提案する。このTUR-DPOは,単純な推論トポロジを抽出し,意味的忠実性,有用性,およびトポロジ品質を校正された不確実性信号に組み合わせることで,回答の導出に報いるものである。
これらの信号に対して小さな学習可能な報酬を分解し、RLフリーのままで固定または移動参照ポリシーのみに依存する不確実性重み付きDPO目標に組み込む。
経験的に、7-8Bのオープンモデルとベンチマークは、数学的推論、事実的質問応答、要約、助け/無害な対話にまたがっており、TUR-DPOはDPOに対する判定の勝利率、忠実さ、校正を改善しながら、トレーニングの単純さを保ち、オンラインのロールアウトを避ける。
さらに、マルチモーダルおよび長期コンテキスト設定における一貫した利得を観察し、TUR-DPOが運用の単純さを維持しながら、推論中心のタスクにおいてPPOと一致またはPPOを超えることを示す。
関連論文リスト
- wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment [48.487557157323664]
実際には、好みのデータはしばしばうるさい。
既存のDPOの頑健な派生型は、主に一様の客観的な修正や大域的な再重み付けに依存している。
目的の介入によって異なるノイズタイプに対処することで、ロバストな選好アライメントの利点が示される。
論文 参考訳(メタデータ) (2026-03-07T13:30:53Z) - Lightweight Robust Direct Preference Optimization [26.99327564250612]
DPO-PRO (DPO with Preference Robustness) はDPOに基づく頑健な微調整アルゴリズムである。
従来のDROベースの変種とは異なり、DPO-PROは好みの不確実性にのみ焦点をあて、不必要な保守性を避け、無視可能な計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2025-10-27T17:55:06Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。