論文の概要: Reward-Weighted Regression Converges to a Global Optimum
- arxiv url: http://arxiv.org/abs/2107.09088v1
- Date: Mon, 19 Jul 2021 18:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 01:22:34.215784
- Title: Reward-Weighted Regression Converges to a Global Optimum
- Title(参考訳): 逆重回帰が世界最適に収束
- Authors: Miroslav \v{S}trupl, Francesco Faccio, Dylan R. Ashley, Rupesh Kumar
Srivastava, J\"urgen Schmidhuber
- Abstract要約: Reward-Weighted Regression (RWR)は、広く知られている反復強化学習アルゴリズムのファミリーである。
関数近似を用いない場合、RWRが大域的最適に収束するという証明を初めて提供する。
- 参考スコア(独自算出の注目度): 3.9653531557712225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward-Weighted Regression (RWR) belongs to a family of widely known
iterative Reinforcement Learning algorithms based on the
Expectation-Maximization framework. In this family, learning at each iteration
consists of sampling a batch of trajectories using the current policy and
fitting a new policy to maximize a return-weighted log-likelihood of actions.
Although RWR is known to yield monotonic improvement of the policy under
certain circumstances, whether and under which conditions RWR converges to the
optimal policy have remained open questions. In this paper, we provide for the
first time a proof that RWR converges to a global optimum when no function
approximation is used.
- Abstract(参考訳): Reward-Weighted Regression (RWR)は、期待最大化フレームワークに基づく、広く知られている反復強化学習アルゴリズムのファミリーである。
このファミリーでは、各イテレーションでの学習は、現在のポリシーを使用して一連のトラジェクトリをサンプリングし、返却重み付けされたログライクなアクションを最大化する新しいポリシーを適合させる。
RWRは特定の状況下でポリシーの単調な改善をもたらすことが知られているが、RWRが最適政策に収束するか否かは未解決のままである。
本稿では,rwr が大域的最適値に収束することを示す証明を,関数近似を用いない場合に初めて提供する。
関連論文リスト
- Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality [0.5261718469769449]
The novel Policy Gradient (PG) algorithm called $textitMatryoshka Policy Gradient$ (MPG) is introduced and study。
我々は,MPGのグローバル収束とともに,エントロピー正規化目標の最適方針を証明し,特徴付ける。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
論文 参考訳(メタデータ) (2023-03-22T17:56:18Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。