論文の概要: Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization
- arxiv url: http://arxiv.org/abs/2301.02220v1
- Date: Thu, 5 Jan 2023 18:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:32:12.830776
- Title: Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization
- Title(参考訳): 効率的・ロバスト信頼領域最適化による強化学習の価値向上
- Authors: Chengchun Shi, Zhengling Qi, Jianing Wang, Fan Zhou
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
- 参考スコア(独自算出の注目度): 14.028916306297928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a powerful machine learning technique that
enables an intelligent agent to learn an optimal policy that maximizes the
cumulative rewards in sequential decision making. Most of methods in the
existing literature are developed in \textit{online} settings where the data
are easy to collect or simulate. Motivated by high stake domains such as mobile
health studies with limited and pre-collected data, in this paper, we study
\textit{offline} reinforcement learning methods. To efficiently use these
datasets for policy optimization, we propose a novel value enhancement method
to improve the performance of a given initial policy computed by existing
state-of-the-art RL algorithms. Specifically, when the initial policy is not
consistent, our method will output a policy whose value is no worse and often
better than that of the initial policy. When the initial policy is consistent,
under some mild conditions, our method will yield a policy whose value
converges to the optimal one at a faster rate than the initial policy,
achieving the desired ``value enhancement" property. The proposed method is
generally applicable to any parametrized policy that belongs to certain
pre-specified function class (e.g., deep neural networks). Extensive numerical
studies are conducted to demonstrate the superior performance of our method.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、知的エージェントが逐次意思決定における累積報酬を最大化する最適なポリシーを学習できる強力な機械学習技術である。
既存の文献のほとんどのメソッドは、データの収集やシミュレートが容易な \textit{online} 設定で開発されています。
本稿では,移動体保健研究や事前収集データなどの高利得領域をモチベーションとして,<textit{offline>強化学習法について検討する。
政策最適化にこれらのデータセットを効率的に利用するために、既存の最先端RLアルゴリズムによって計算された与えられた初期ポリシーの性能を改善するための新しい値拡張手法を提案する。
具体的には、初期ポリシーが整合性がない場合、我々の手法は、その値があまり悪くなく、しばしば初期ポリシーよりも良いポリシーを出力する。
初期方針が一貫した場合、いくつかの穏やかな条件下において、本手法は、所望の ``value enhancement" 特性を達成するために、初期方針よりも速い速度で最適な方針に値が収束するポリシーを導出する。
提案手法は、特定の特定の関数クラス(例えばディープニューラルネットワーク)に属する任意のパラメータ化ポリシーに適用できる。
本手法の優れた性能を示すため, 大規模数値実験を行った。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons [16.635744815056906]
モバイルヘルスアプリケーションなどのオンラインデータ収集を伴わないオフライン領域での強化学習手法を検討する。
提案手法は、既存の最先端RLアルゴリズムによって計算された最適Q推定器を入力とし、初期Q推定器に基づいて導出されたポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
論文 参考訳(メタデータ) (2022-02-26T15:29:46Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。