論文の概要: Multi-Objective Reward and Preference Optimization: Theory and Algorithms
- arxiv url: http://arxiv.org/abs/2512.10601v1
- Date: Thu, 11 Dec 2025 12:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.36295
- Title: Multi-Objective Reward and Preference Optimization: Theory and Algorithms
- Title(参考訳): 多目的リワードと選好最適化:理論とアルゴリズム
- Authors: Akhil Agnihotri,
- Abstract要約: この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
- 参考スコア(独自算出の注目度): 3.316593788543852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis develops theoretical frameworks and algorithms that advance constrained reinforcement learning (RL) across control, preference learning, and alignment of large language models. The first contribution addresses constrained Markov Decision Processes (CMDPs) under the average-cost criterion through the Average-Constrained Policy Optimization (ACPO) algorithm. ACPO integrates sensitivity analysis with trust-region updates to ensure stable constraint handling, achieving state-of-the-art empirical performance with theoretical guarantees. Constrained RL is then extended to finite-horizon settings via e-COP, the first policy optimization method for episodic CMDPs. Built on an episodic policy difference lemma, e-COP offers provable performance, simplicity, and scalability in safety-critical environments. The thesis then investigates reinforcement learning from human preferences. warmPref-PS introduces a posterior sampling strategy for linear bandits that integrates offline preference data from heterogeneous raters into online learning. Explicit modeling of rater competence yields substantial regret reduction and more efficient data collection for RLHF. The PSPL algorithm further advances preference-based RL by jointly sampling reward models and transition dynamics from pairwise trajectory comparisons, providing Bayesian simple-regret guarantees and robust empirical identification of optimal policies. The final contribution applies these methods to large-scale model alignment. A multi-objective constrained optimization view yields MOPO, an iterative algorithm with closed-form updates that scales to multi-billion-parameter language models and remains robust across alignment settings. Collectively, the thesis unifies constrained RL across average-cost, episodic, and preference-driven paradigms, delivering theoretical advances and practical tools for safe and aligned decision-making.
- Abstract(参考訳): この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
最初のコントリビューションは、平均制約付きポリシー最適化(ACPO)アルゴリズムを通じて、平均的なコスト基準の下でマルコフ決定プロセス(CMDP)に対処する。
ACPOは信頼性分析と信頼領域更新を統合し、安定した制約処理を保証し、理論的な保証で最先端の実証的なパフォーマンスを達成する。
制約付きRLは、エピソードCMDPの最初のポリシー最適化法であるe-COPによって有限水平設定に拡張される。
e-COPは、エピソジックなポリシー差の補題に基づいて構築されており、安全クリティカルな環境において、証明可能なパフォーマンス、単純さ、スケーラビリティを提供する。
論文は、人間の好みから強化学習を研究する。
warmPref-PSは、不均一なラッカーからのオフラインの選好データをオンライン学習に統合する線形包帯の後方サンプリング戦略を導入した。
レーダ能力の明示的なモデリングは、RLHFの大幅な後悔の低減と、より効率的なデータ収集をもたらす。
PSPLアルゴリズムはさらに、ペアの軌跡比較から報酬モデルと遷移ダイナミクスを共同サンプリングすることで、好みに基づくRLをさらに前進させ、ベイズ的単純回帰保証と最適なポリシーの堅牢な実証的同定を提供する。
最終的な貢献はこれらの手法を大規模モデルアライメントに適用する。
多目的制約最適化ビューは、複数パラメータ言語モデルにスケールし、アライメント設定にわたって堅牢なクローズドフォーム更新を備えた反復アルゴリズムであるMOPOを生成する。
集合的に、この論文は、平均的コスト、エピソード、および嗜好駆動のパラダイムをまたいだ制約付きRLを統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。
標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。
MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T02:31:52Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。