論文の概要: Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models
- arxiv url: http://arxiv.org/abs/2505.10892v1
- Date: Fri, 16 May 2025 05:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.183776
- Title: Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models
- Title(参考訳): 多目的選好最適化:生成モデルのアライメント改善
- Authors: Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Zheng Wen,
- Abstract要約: 制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
- 参考スコア(独自算出の注目度): 15.799929216215672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training of LLMs with RLHF, and subsequently preference optimization algorithms such as DPO, IPO, etc., made a big difference in improving human alignment. However, all such techniques can only work with a single (human) objective. In practice, human users have multiple objectives, such as helpfulness and harmlessness, and there is no natural way to aggregate them into a single objective. In this paper, we address the multi-objective preference-alignment problem, where a policy must optimize several, potentially conflicting, objectives. We introduce the Multi-Objective Preference Optimization (MOPO) algorithm, which frames alignment as a constrained KL-regularized optimization: the primary objective is maximized while secondary objectives are lower-bounded by tunable safety thresholds. Unlike prior work, MOPO operates directly on pairwise preference data, requires no point-wise reward assumption, and avoids heuristic prompt-context engineering. The method recovers policies on the Pareto front whenever the front is attainable; practically, it reduces to simple closed-form iterative updates suitable for large-scale training. On synthetic benchmarks with diverse canonical preference structures, we show that MOPO approximates the Pareto front. When fine-tuning a 1.3B-parameter language model on real-world human-preference datasets, MOPO attains higher rewards and yields policies that Pareto-dominate baselines; ablation studies confirm optimization stability and robustness to hyperparameters.
- Abstract(参考訳): LLMをRLHFでトレーニングした後、DPOやIPOなどの優先最適化アルゴリズムは、人間のアライメントを改善する上で大きな違いをもたらしました。
しかし、このような手法はすべて、単一の(人間)目的でしか機能しない。
実際には、人間のユーザは、助け合いや無害など、複数の目的を持ち、それらを一つの目的に集約する自然な方法はない。
本稿では、ポリシーが複数の競合する可能性のある目的を最適化する必要がある多目的優先調整問題に対処する。
本稿では,制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、ヒューリスティックなプロンプトコンテキストエンジニアリングを避ける。
この方法は、正面が到達可能であればいつでもパレートフロントのポリシーを回復し、実際は大規模訓練に適した単純なクローズドフォーム反復更新に還元する。
様々な標準的嗜好構造を持つ合成ベンチマークでは、MOPOがパレートフロントに近似していることが示される。
1.3Bパラメータ言語モデルを実世界の人為的なデータセットで微調整すると、MOPOはより高い報酬を獲得し、パレートがベースラインを独占するポリシーを得る。
関連論文リスト
- Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF [13.612504157832708]
強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、機械学習モデルと人間の好みを一致させる、広く使われている微調整アプローチである。
本研究では,非線形アグリゲーション問題を一連のサブプロブレムに変換し,フレームワークを多群シナリオに拡張する。
我々は,アルゴリズムフレームワークがサブ線形後悔を実現し,報酬のないアルゴリズムに容易に適応できることを実証した。
論文 参考訳(メタデータ) (2025-02-21T01:56:52Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。