論文の概要: Refined Policy Improvement Bounds for MDPs
- arxiv url: http://arxiv.org/abs/2107.08068v1
- Date: Fri, 16 Jul 2021 18:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 11:49:25.019260
- Title: Refined Policy Improvement Bounds for MDPs
- Title(参考訳): MDPの政策改善境界
- Authors: J. G. Dai and Mark Gluzman
- Abstract要約: 割引係数において「連続的」な新規な境界を提案する。
特に、我々の限界は、長期平均報酬を持つMDPにも当てはまる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The policy improvement bound on the difference of the discounted returns
plays a crucial role in the theoretical justification of the trust-region
policy optimization (TRPO) algorithm. The existing bound leads to a degenerate
bound when the discount factor approaches one, making the applicability of TRPO
and related algorithms questionable when the discount factor is close to one.
We refine the results in \cite{Schulman2015, Achiam2017} and propose a novel
bound that is "continuous" in the discount factor. In particular, our bound is
applicable for MDPs with the long-run average rewards as well.
- Abstract(参考訳): 割引リターンの差に縛られる政策改善は、信頼区間政策最適化(TRPO)アルゴリズムの理論的正当性において重要な役割を果たす。
既存のバウンダリは、ディスカウント係数が1に近づくと縮退バウンダリとなり、ディスカウント係数が1に近づくと、TRPOと関連するアルゴリズムの適用性が疑問視される。
我々は,その結果を<cite{schulman2015, achiam2017} で精錬し,ディスカウント係数において「連続」な新しい境界を提案する。
特に、我々の限界は、長期平均報酬を持つMDPにも当てはまる。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Distributional constrained reinforcement learning for supply chain
optimization [0.0]
本稿では、強化学習における信頼性の高い制約満足度のための新しいアプローチである分散制約政策最適化(DCPO)を紹介する。
我々は、DCPOがRLポリシーの収束率を改善し、トレーニングの終了までに信頼性の高い制約満足度を確保することを示す。
論文 参考訳(メタデータ) (2023-02-03T13:43:02Z) - Performance Bounds for Policy-Based Average Reward Reinforcement
Learning Algorithms [11.013390624382259]
多くのポリシーベース強化学習(RL)アルゴリズムは、近似ポリシー反復(PI)のインスタンス化と見なすことができる。
平均報酬目標が有意義なパフォーマンス指標であるアプリケーションでは、割引された報酬の定式化がしばしば使用され、割引係数は1,$近くで、期待される地平線を非常に大きくするのと同等である。
本稿では、この開放的な問題を、平均逆 MDP に対する最初の有限時間誤差境界を求めることで解決し、政策評価や政策改善の誤差がゼロになるにつれて、その誤差が極限でゼロとなることを示す。
論文 参考訳(メタデータ) (2023-02-02T22:37:47Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。