論文の概要: e-COP : Episodic Constrained Optimization of Policies
- arxiv url: http://arxiv.org/abs/2406.09563v1
- Date: Thu, 13 Jun 2024 20:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:14:47.056476
- Title: e-COP : Episodic Constrained Optimization of Policies
- Title(参考訳): e-COP : エピソード制約による政策最適化
- Authors: Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Sahil Singla,
- Abstract要約: 本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
- 参考スコア(独自算出の注目度): 12.854752753529151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present the $\texttt{e-COP}$ algorithm, the first policy optimization algorithm for constrained Reinforcement Learning (RL) in episodic (finite horizon) settings. Such formulations are applicable when there are separate sets of optimization criteria and constraints on a system's behavior. We approach this problem by first establishing a policy difference lemma for the episodic setting, which provides the theoretical foundation for the algorithm. Then, we propose to combine a set of established and novel solution ideas to yield the $\texttt{e-COP}$ algorithm that is easy to implement and numerically stable, and provide a theoretical guarantee on optimality under certain scaling assumptions. Through extensive empirical analysis using benchmarks in the Safety Gym suite, we show that our algorithm has similar or better performance than SoTA (non-episodic) algorithms adapted for the episodic setting. The scalability of the algorithm opens the door to its application in safety-constrained Reinforcement Learning from Human Feedback for Large Language or Diffusion Models.
- Abstract(参考訳): 本稿では,制約付き強化学習(RL)のための最初のポリシー最適化アルゴリズムである$\texttt{e-COP}$アルゴリズムを提案する。
このような定式化は、システムの振る舞いに異なる最適化基準と制約がある場合に適用される。
本稿では、まず、このアルゴリズムの理論的基礎を提供するエピソード設定のためのポリシー差分補題を確立することにより、この問題にアプローチする。
そこで本稿では, 実装が容易で数値的に安定な$\texttt{e-COP}$アルゴリズムを実現するために, 確立された解と新しい解の集合を組み合わせることを提案する。
セーフティ・ガイム・スイートのベンチマークを用いた広範囲な実験分析により,本アルゴリズムは, エピソード・セッティングに適応したSoTA(non-episodic)アルゴリズムと類似あるいは優れた性能を示した。
アルゴリズムのスケーラビリティは、大規模言語や拡散モデルに対するヒューマンフィードバックからの安全制約付き強化学習における応用への扉を開く。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Stepwise Alignment for Constrained Language Model Policy Optimization [12.986006070964772]
大規模言語モデル(LLM)を用いたAIシステムの現実的な応用には、安全性と信頼性が不可欠である
本稿では、安全制約下での報酬を最大化するために、言語モデルポリシーの最適化問題として、人間の価値アライメントを定式化する。
SACPOの背景にある重要な考え方の1つは、報酬と安全を取り入れた最適な政策は、報酬に整合した政策から直接得ることができるということである。
論文 参考訳(メタデータ) (2024-04-17T03:44:58Z) - From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。
QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。
これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文 参考訳(メタデータ) (2023-11-18T21:00:14Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文 参考訳(メタデータ) (2022-02-07T16:25:14Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。