論文の概要: Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual
- arxiv url: http://arxiv.org/abs/2602.22146v1
- Date: Wed, 25 Feb 2026 17:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.936976
- Title: Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual
- Title(参考訳): 多目的安全LLMアライメントにおける最適プリマルダイアルによる最終Iterate Convergenceの予測
- Authors: Yining Li, Peizhong Ju, Ness Shroff,
- Abstract要約: 予備変数と二重変数の予測更新を組み込んだ楽観的原始双対(OPD)アルゴリズムを導入し,サドル・ポイント・ダイナミクスを安定化させる。
この分析により,制約されたアライメント目的に固有の振動を緩和する上で,楽観主義が重要な役割を担っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 26.51548597257528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) plays a significant role in aligning Large Language Models (LLMs) with human preferences. While RLHF with expected reward constraints can be formulated as a primal-dual optimization problem, standard primal-dual methods only guarantee convergence with a distributional policy where the saddle-point problem is in convex-concave form. Moreover, standard primal-dual methods may exhibit instability or divergence in the last iterate under policy parameterization in practical applications. In this work, we propose a universal primal-dual framework for safe RLHF that unifies a broad class of existing alignment algorithms, including safe-RLHF, one-shot, and multi-shot based methods. Building on this framework, we introduce an optimistic primal-dual (OPD) algorithm that incorporates predictive updates for both primal and dual variables to stabilize saddle-point dynamics. We establish last-iterate convergence guarantees for the proposed method, covering both exact policy optimization in the distributional space and convergence to a neighborhood of the optimal solution whose gap is related to approximation error and bias under parameterized policies. Our analysis reveals that optimism plays a crucial role in mitigating oscillations inherent to constrained alignment objectives, thereby closing a key theoretical gap between constrained RL and practical RLHF.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
期待される報酬制約を持つRLHFは、原始双対最適化問題として定式化できるが、標準原始双対法は、サドルポイント問題が凸凸凹形であるような分布ポリシーとの収束を保証するのみである。
さらに、標準原始双対法は、実践的応用におけるポリシーパラメータ化の下で、最後の反復において不安定またはばらつきを示す可能性がある。
そこで本研究では,安全なRLHF,ワンショット,マルチショットに基づく手法を含む,既存のアライメントアルゴリズムの幅広いクラスを統一する,安全なRLHFのための汎用的原始双対フレームワークを提案する。
この枠組みに基づいて,予備変数と二重変数の予測更新を組み込んだ楽観的原始双対(OPD)アルゴリズムを導入し,サドルポイントダイナミクスを安定化させる。
提案手法では,分布空間における厳密なポリシ最適化と,パラメータ化ポリシの下での近似誤差と偏差が関係する最適解の近傍への収束の両方を網羅し,最終項目収束保証を確立する。
解析の結果,制約されたアライメントの目的に固有の振動を緩和する上で,楽観主義が重要な役割を担っていることが明らかとなった。
関連論文リスト
- Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment [61.02595549125661]
大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する際に重要なジレンマに直面します。
我々は、優先順位調整における勾配レベルの対立を解決する革新的なアプローチであるOrthAlignを提案する。
我々はOrthAlignが多重目的アライメント後の34.61%から50.89%の最大単一参照改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-29T11:16:30Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。