論文の概要: A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.07818v1
- Date: Tue, 13 Jun 2023 14:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:12:27.218636
- Title: A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement
Learning
- Title(参考訳): オフライン制約強化学習のための最小二項臨界アルゴリズム
- Authors: Kihyuk Hong, Yuhang Li, Ambuj Tewari
- Abstract要約: 一般関数近似を用いたオフライン制約付きRLの新しいアルゴリズムであるPrimal-Dual-Critic Algorithm (PDCA)を提案する。
PDCAは批判者によって推定されるラグランジアン関数上の原始双対アルゴリズムを実行する。
PDCAがラグランジアン近傍のサドル点を見つけることは、制約されたRL問題に対してほぼ最適であることを示す。
- 参考スコア(独自算出の注目度): 23.890686553141798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline constrained reinforcement learning (RL) aims to learn a policy that
maximizes the expected cumulative reward subject to constraints on expected
value of cost functions using an existing dataset. In this paper, we propose
Primal-Dual-Critic Algorithm (PDCA), a novel algorithm for offline constrained
RL with general function approximation. PDCA runs a primal-dual algorithm on
the Lagrangian function estimated by critics. The primal player employs a
no-regret policy optimization oracle to maximize the Lagrangian estimate given
any choices of the critics and the dual player. The dual player employs a
no-regret online linear optimization oracle to minimize the Lagrangian estimate
given any choices of the critics and the primal player. We show that PDCA can
successfully find a near saddle point of the Lagrangian, which is nearly
optimal for the constrained RL problem. Unlike previous work that requires
concentrability and strong Bellman completeness assumptions, PDCA only requires
concentrability and value function/marginalized importance weight realizability
assumptions.
- Abstract(参考訳): オフライン制約強化学習(RL)は、既存のデータセットを用いてコスト関数の期待値の制約を受ける累積報酬を最大化する政策を学習することを目的としている。
本稿では,一般関数近似を用いたオフライン制約付きRLの新しいアルゴリズムであるPrimal-Dual-Critic Algorithm (PDCA)を提案する。
PDCAは批判者によって推定されるラグランジュ関数上の原始双対アルゴリズムを実行する。
プライマルプレイヤーは、批評家とデュアルプレイヤーの任意の選択によりラグランジアンの推定を最大化するために、無規制のポリシー最適化オラクルを用いる。
双対プレイヤーは、批評家と原始プレイヤーの選択を考慮し、ラグランジアン推定を最小化するために、オンラインの線形最適化オラクルを未熟にしている。
PDCAがラグランジアン近傍のサドル点を見つけることは、制約されたRL問題に対してほぼ最適であることを示す。
集中性とベルマン完全性仮定を必要とする以前の研究とは異なり、PDCAは集中性と値関数/重畳化重み実現可能性仮定のみを必要とする。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Quantile Constrained Reinforcement Learning: A Reinforcement Learning
Framework Constraining Outage Probability [16.861004263551447]
制約付き強化学習(RL)は,与えられた制約を満たすことなく,期待される累積回帰を最大化する最適政策を求めることを目的とする。
本稿では,累積和の分布の量子化を制約するフレームワークであるQuantile Constrained RL(QCRL)を提案する。
論文 参考訳(メタデータ) (2022-11-28T03:46:56Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。