論文の概要: Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07558v1
- Date: Mon, 12 May 2025 13:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.407064
- Title: Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models
- Title(参考訳): 直接密度比最適化:大規模言語モデルへの統計的一貫したアプローチ
- Authors: Rei Higuchi, Taiji Suzuki,
- Abstract要約: 直密度比最適化(DDRO)の新たなアライメント手法を提案する。
DDROは、好ましくない出力分布と好ましくない出力分布の密度比を直接推定し、明示的な人間の嗜好モデリングの必要性を回避する。
実験により、DDROは、多くの主要なベンチマークにおける既存の手法と比較して優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 40.69646918673903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human preferences is crucial for safe deployment, yet existing methods assume specific preference models like Bradley-Terry model. This assumption leads to statistical inconsistency, where more data doesn't guarantee convergence to true human preferences. To address this critical gap, we introduce a novel alignment method Direct Density Ratio Optimization (DDRO). DDRO directly estimates the density ratio between preferred and unpreferred output distributions, circumventing the need for explicit human preference modeling. We theoretically prove that DDRO is statistically consistent, ensuring convergence to the true preferred distribution as the data size grows, regardless of the underlying preference structure. Experiments demonstrate that DDRO achieves superior performance compared to existing methods on many major benchmarks. DDRO unlocks the potential for truly data-driven alignment, paving the way for more reliable and human-aligned LLMs.
- Abstract(参考訳): 人間の好みで大きな言語モデル(LLM)を調整することは安全なデプロイメントには不可欠だが、既存のメソッドではBradley-Terryモデルのような特定の好みモデルが想定されている。
この仮定は、より多くのデータが真の人間の嗜好に収束することを保証しない統計上の矛盾につながる。
この重要なギャップに対処するために、新しいアライメント手法であるダイレクト密度比最適化(DDRO)を導入する。
DDROは、好ましくない出力分布と好ましくない出力分布の密度比を直接推定し、明示的な人間の嗜好モデリングの必要性を回避する。
理論的には、DDROは統計的に一貫したものであり、基礎となる選好構造に関係なく、データサイズが大きくなるにつれて真の選好分布に収束することを保証する。
実験により、DDROは、多くの主要なベンチマークにおける既存の手法と比較して優れた性能を発揮することが示された。
DDROは、真のデータ駆動アライメントの可能性を解き放ち、より信頼性が高く、人間に準拠したLCMを実現する。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。
近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。
そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Distributionally Robust Optimization as a Scalable Framework to Characterize Extreme Value Distributions [22.765095010254118]
本研究の目的は分散ロバストな最適化 (DRO) 推定器の開発であり、特に多次元極値理論 (EVT) の統計量についてである。
点過程の空間における半パラメトリックな最大安定制約によって予測されるDRO推定器について検討した。
両手法は, 合成データを用いて検証し, 所定の特性を回復し, 提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-07-31T19:45:27Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。