論文の概要: Beyond One-Preference-for-All: Multi-Objective Direct Preference
Optimization
- arxiv url: http://arxiv.org/abs/2310.03708v1
- Date: Thu, 5 Oct 2023 17:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:13:12.789084
- Title: Beyond One-Preference-for-All: Multi-Objective Direct Preference
Optimization
- Title(参考訳): one-preference-for-allを超えて:多目的直接選好最適化
- Authors: Zhanhui Zhou, Jie Liu, Chao Yang, Jing Shao, Yu Liu, Xiangyu Yue,
Wanli Ouyang, Yu Qiao
- Abstract要約: 複数のアライメント目的に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMulti-Objective Direct Preference Optimization (MODPO)を提案する。
単純なクロスエントロピー損失では、MODPO目標に対して最適化されたLMは、元のMORLHF目標の正確な解である。
- 参考スコア(独自算出の注目度): 78.50294936259026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs), despite aligning well with an average labeler through
reinforcement learning from human feedback (RLHF), may not universally suit
diverse human preferences. Recent approaches therefore opt for customization by
collecting multi-dimensional feedback and creating distinct rewards for each
dimension (e.g., helpfulness, harmlessness, honesty). LMs can then be tailored
to different preferences using multi-objective RL (MORL) with different reward
weightings. Yet, RL fine-tuning is unstable and resource-heavy, especially for
MORLHF with diverse and usually conflicting objectives. In this paper, we
present Multi-Objective Direct Preference Optimization (MODPO), an RL-free
algorithm that extends Direct Preference Optimization (DPO) for multiple
alignment objectives. Essentially, MODPO trains different LMs to represent
different collective reward models that combine all objectives with specific
weightings. With a simple cross-entropy loss, the LMs optimized against the
MODPO objective are analytically the exact solutions of the original MORLHF
objective. Empirical results in safety alignment and long-form question
answering confirm that MODPO matches or outperforms existing methods,
efficiently producing a Pareto-optimal set of LMs that cater to diverse
preferences with 3 times less computational resources compared with MORLHF.
- Abstract(参考訳): 言語モデル(LM)は、人間からのフィードバック(RLHF)からの強化学習を通じて平均的なラベラーと整合しているにもかかわらず、多種多様な人間の嗜好に普遍的に適合しないかもしれない。
したがって、近年のアプローチでは、多次元フィードバックを収集し、各次元(例えば、有用性、無害性、正直性)に対して異なる報酬を生み出すことでカスタマイズを選択できる。
LMは、異なる報酬重み付けを持つ多目的RL(MORL)を使用して、異なる好みに合わせて調整することができる。
しかし、RL微調整は不安定であり、特に多様で通常矛盾する目的を持つMORLHFにとって、資源重大である。
本稿では,複数のアライメント目的に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMODPOを提案する。
基本的に、MODPOは異なるLMを訓練し、全ての目的と特定の重み付けを組み合わせた異なる集団報酬モデルを表現する。
単純なクロスエントロピー損失により、MODPO目標に対して最適化されたLMは、元のMORLHF目標の正確な解である。
MORLHFに比べて3倍少ない計算資源で、様々な選好に適合するパレート最適のLMを効率よく生成し、MODPOが既存の手法と一致または性能を向上することを確認する。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Arithmetic Control of LLMs for Diverse User Preferences: Directional
Preference Alignment with Multi-Objective Rewards [32.799198549439716]
大規模言語モデル(LLM)の整合化のためのDPA(Directional Preference Alignment)フレームワークを導入する。
スカラー・リワードのRLHFとは異なり、DPAは多目的報酬モデルを導入し、多様な好みプロファイルを表現している。
本手法は有用性と冗長性の間のトレードオフを算術的に簡単に制御する。
論文 参考訳(メタデータ) (2024-02-28T18:58:25Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment [48.773648757361975]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。