論文の概要: Beyond One-Preference-for-All: Multi-Objective Direct Preference
Optimization for Language Models
- arxiv url: http://arxiv.org/abs/2310.03708v2
- Date: Tue, 17 Oct 2023 16:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:06:00.556045
- Title: Beyond One-Preference-for-All: Multi-Objective Direct Preference
Optimization for Language Models
- Title(参考訳): one-preference-for-all 言語モデルの多目的直接選好最適化
- Authors: Zhanhui Zhou, Jie Liu, Chao Yang, Jing Shao, Yu Liu, Xiangyu Yue,
Wanli Ouyang, Yu Qiao
- Abstract要約: Multi-Objective Direct Preference Optimization (MODPO) は、複数のアライメント対象に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムである。
LM学習を直接報酬モデリングに折り畳み、原則に基づく報酬の重み付けされた合計とLMを整合させる。
MORLHFと比較して3倍の計算量で、様々な好みに対応する最も競争力のあるLMフロントの1つを一貫して生成する。
- 参考スコア(独自算出の注目度): 78.50294936259026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A single language model (LM), despite aligning well with an average labeler
through reinforcement learning from human feedback (RLHF), may not universally
suit diverse human preferences. Recent approaches thus pursue customization,
training separate principle-based reward models to represent different
alignment objectives (e.g. helpfulness, harmlessness, or honesty). Different
LMs can then be trained for different preferences through multi-objective RLHF
(MORLHF) with different objective weightings. Yet, RLHF is unstable and
resource-heavy, especially for MORLHF with diverse and usually conflicting
objectives. In this paper, we present Multi-Objective Direct Preference
Optimization (MODPO), an RL-free algorithm that extends Direct Preference
Optimization (DPO) for multiple alignment objectives. Essentially, MODPO folds
LM learning directly into reward modeling, aligning LMs with the weighted sum
of all principle-based rewards using pure cross-entropy loss. While
theoretically guaranteed to produce the same optimal solutions as MORLHF, MODPO
is practically more stable and computationally efficient, obviating value
function modeling and online sample collection. Empirical results in safety
alignment and long-form question answering confirm that MODPO matches or
outperforms existing methods, consistently producing one of the most
competitive LM fronts that cater to diverse preferences with 3 times fewer
computations compared with MORLHF.
- Abstract(参考訳): 単一言語モデル(LM)は、人間からのフィードバック(RLHF)からの強化学習を通じて平均的なラベラーと整合するが、多種多様な人間の嗜好に普遍的に適合しない。
したがって、近年のアプローチはカスタマイズを追求し、異なるアライメント目標(例えば、有益性、無害性、正直性)を表現するために、原則に基づく報酬モデルを個別に訓練する。
異なるLMは、異なる目的重み付けを持つ多目的RLHF(MORLHF)によって異なる好みのために訓練することができる。
しかし、RLHFは不安定で、特に多様で通常矛盾する目的を持つMORLHFにとって、資源が豊富である。
本稿では,複数のアライメント目的に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMODPOを提案する。
本質的には、MODPOはLM学習を直接報酬モデリングに折り畳み、純粋なクロスエントロピー損失を用いたすべての原則に基づく報酬の重み付け和と一致する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定であり、計算効率が良く、値関数のモデリングやオンラインサンプル収集が不可能である。
安全アライメントと長時間の質問応答の実証結果から、MODPOは既存の手法と一致し、MORLHFの3倍の計算量で様々な好みに適合する最も競争力のあるLMフロントの1つを一貫して生成することを確認した。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Arithmetic Control of LLMs for Diverse User Preferences: Directional
Preference Alignment with Multi-Objective Rewards [32.799198549439716]
大規模言語モデル(LLM)の整合化のためのDPA(Directional Preference Alignment)フレームワークを導入する。
スカラー・リワードのRLHFとは異なり、DPAは多目的報酬モデルを導入し、多様な好みプロファイルを表現している。
本手法は有用性と冗長性の間のトレードオフを算術的に簡単に制御する。
論文 参考訳(メタデータ) (2024-02-28T18:58:25Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment [48.773648757361975]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。