論文の概要: Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07558v2
- Date: Mon, 19 May 2025 20:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.35918
- Title: Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models
- Title(参考訳): 直接密度比最適化:大規模言語モデルへの統計的一貫したアプローチ
- Authors: Rei Higuchi, Taiji Suzuki,
- Abstract要約: 直密度比最適化(DDRO)の新たなアライメント手法を提案する。
DDROは、好ましくない出力分布と好ましくない出力分布の密度比を直接推定し、明示的な人間の嗜好モデリングの必要性を回避する。
実験により、DDROは、多くの主要なベンチマークにおける既存の手法と比較して優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 40.69646918673903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human preferences is crucial for safe deployment, yet existing methods assume specific preference models like Bradley-Terry model. This assumption leads to statistical inconsistency, where more data doesn't guarantee convergence to true human preferences. To address this critical gap, we introduce a novel alignment method Direct Density Ratio Optimization (DDRO). DDRO directly estimates the density ratio between preferred and unpreferred output distributions, circumventing the need for explicit human preference modeling. We theoretically prove that DDRO is statistically consistent, ensuring convergence to the true preferred distribution as the data size grows, regardless of the underlying preference structure. Experiments demonstrate that DDRO achieves superior performance compared to existing methods on many major benchmarks. DDRO unlocks the potential for truly data-driven alignment, paving the way for more reliable and human-aligned LLMs.
- Abstract(参考訳): 人間の好みで大きな言語モデル(LLM)を調整することは安全なデプロイメントには不可欠だが、既存のメソッドではBradley-Terryモデルのような特定の好みモデルが想定されている。
この仮定は、より多くのデータが真の人間の嗜好に収束することを保証しない統計上の矛盾につながる。
この重要なギャップに対処するために、新しいアライメント手法であるダイレクト密度比最適化(DDRO)を導入する。
DDROは、好ましくない出力分布と好ましくない出力分布の密度比を直接推定し、明示的な人間の嗜好モデリングの必要性を回避する。
理論的には、DDROは統計的に一貫したものであり、基礎となる選好構造に関係なく、データサイズが大きくなるにつれて真の選好分布に収束することを保証する。
実験により、DDROは、多くの主要なベンチマークにおける既存の手法と比較して優れた性能を発揮することが示された。
DDROは、真のデータ駆動アライメントの可能性を解き放ち、より信頼性が高く、人間に準拠したLCMを実現する。
関連論文リスト
- Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。
近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。
そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Soft Preference Optimization: Aligning Language Models to Expert Distributions [40.84391304598521]
SPOは、Large Language Models (LLMs)のような生成モデルと人間の好みを整合させる手法である。
SPOは、選好損失をモデル全体の出力分布全体にわたる正規化項と統合する。
本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。
論文 参考訳(メタデータ) (2024-04-30T19:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。