論文の概要: Towards Efficient and Exact Optimization of Language Model Alignment
- arxiv url: http://arxiv.org/abs/2402.00856v2
- Date: Fri, 2 Feb 2024 15:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 11:54:11.740153
- Title: Towards Efficient and Exact Optimization of Language Model Alignment
- Title(参考訳): 言語モデルアライメントの効率的かつ厳密な最適化に向けて
- Authors: Haozhe Ji, Cheng Lu, Yilin Niu, Pei Ke, Hongning Wang, Jun Zhu, Jie
Tang, Minlie Huang
- Abstract要約: 本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
- 参考スコア(独自算出の注目度): 97.41422112912574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of language models with human preferences is vital for their
application in real-world tasks. The problem is formulated as optimizing the
model's policy to maximize the expected reward that reflects human preferences
with minimal deviation from the initial policy. While considered as a
straightforward solution, reinforcement learning (RL) suffers from high
variance in policy updates, which impedes efficient policy improvement.
Recently, direct preference optimization (DPO) was proposed to directly
optimize the policy from preference data. Though simple to implement, DPO is
derived based on the optimal policy that is not assured to be achieved in
practice, which undermines its convergence to the intended solution.
In this paper, we propose efficient exact optimization (EXO) of the alignment
objective. We prove that EXO is guaranteed to optimize in the same direction as
the RL algorithms asymptotically for arbitary parametrization of the policy,
while enables efficient optimization by circumventing the complexities
associated with RL algorithms. We compare our method to DPO with both
theoretical and empirical analyses, and further demonstrate the advantages of
our method over existing approaches on realistic human preference data.
- Abstract(参考訳): 言語モデルと人間の好みのアライメントは、現実世界のタスクでの使用には不可欠である。
この問題は、初期方針からの逸脱を最小限に抑えた人間の嗜好を反映した期待される報酬を最大化するために、モデルのポリシーを最適化するものとして定式化される。
素直な解決と見なされているが、強化学習(RL)は、効率的な政策改善を妨げる政策更新のばらつきに悩まされている。
近年、嗜好データからポリシーを直接最適化するために、直接選好最適化(DPO)が提案されている。
実装は簡単だが、DPOは、実際に達成されることが保証されていない最適ポリシーに基づいて導出され、意図された解への収束を損なう。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを保証し,RLアルゴリズムに関連する複雑さを回避し,効率的な最適化を可能にすることを証明した。
本手法をdpoと比較し,理論解析と実証分析の両方と比較し,現実的人間嗜好データに対する既存のアプローチよりも,この手法の利点を実証する。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。