論文の概要: Time-Efficient Reinforcement Learning with Stochastic Stateful Policies
- arxiv url: http://arxiv.org/abs/2311.04082v1
- Date: Tue, 7 Nov 2023 15:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:01:50.109617
- Title: Time-Efficient Reinforcement Learning with Stochastic Stateful Policies
- Title(参考訳): 確率的ステートフル政策を用いた時間効率強化学習
- Authors: Firas Al-Hafez and Guoping Zhao and Jan Peters and Davide Tateo
- Abstract要約: 我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
- 参考スコア(独自算出の注目度): 20.545058017790428
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Stateful policies play an important role in reinforcement learning, such as
handling partially observable environments, enhancing robustness, or imposing
an inductive bias directly into the policy structure. The conventional method
for training stateful policies is Backpropagation Through Time (BPTT), which
comes with significant drawbacks, such as slow training due to sequential
gradient propagation and the occurrence of vanishing or exploding gradients.
The gradient is often truncated to address these issues, resulting in a biased
policy update. We present a novel approach for training stateful policies by
decomposing the latter into a stochastic internal state kernel and a stateless
policy, jointly optimized by following the stateful policy gradient. We
introduce different versions of the stateful policy gradient theorem, enabling
us to easily instantiate stateful variants of popular reinforcement learning
and imitation learning algorithms. Furthermore, we provide a theoretical
analysis of our new gradient estimator and compare it with BPTT. We evaluate
our approach on complex continuous control tasks, e.g., humanoid locomotion,
and demonstrate that our gradient estimator scales effectively with task
complexity while offering a faster and simpler alternative to BPTT.
- Abstract(参考訳): ステートフルな政策は、部分的に観察可能な環境を扱うこと、堅牢性を高めること、あるいは政策構造に直接帰納バイアスを課すことなど、強化学習において重要な役割を果たす。
従来のステートフルポリシーのトレーニング方法はBPTT(Backproagation Through Time)であり、シーケンシャルな勾配の伝播による遅いトレーニングや、消滅または爆発的な勾配の発生など、大きな欠点がある。
勾配はしばしばこれらの問題に対処するために切り離され、バイアスのあるポリシー更新となる。
本稿では,後者を確率的内部状態カーネルとステートレスポリシーに分解し,ステートフルポリシー勾配に従うことによって協調的に最適化した,ステートフルポリシーのトレーニング手法を提案する。
我々は、ステートフルポリシー勾配定理の異なるバージョンを導入し、人気のある強化学習と模倣学習アルゴリズムのステートフル変種を簡単にインスタンス化できるようにする。
さらに,新しい勾配推定器の理論的解析を行い,BPTTと比較した。
我々は,ヒューマノイド運動などの複雑な連続制御タスクに対するアプローチを評価し,勾配推定器がbpttのより高速でシンプルな代替手段を提供しながら,タスク複雑性と効果的にスケールできることを実証する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Faster Policy Learning with Continuous-Time Gradients [6.457260875902829]
既知のダイナミクスを有する連続時間システムにおけるポリシー勾配の推定について検討する。
ポリシー学習を連続的に行うことで、より効率的で正確な勾配推定器を構築できることを示す。
論文 参考訳(メタデータ) (2020-12-12T00:22:56Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。