論文の概要: A framework for reinforcement learning with autocorrelated actions
- arxiv url: http://arxiv.org/abs/2009.04777v1
- Date: Thu, 10 Sep 2020 11:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 02:52:11.419691
- Title: A framework for reinforcement learning with autocorrelated actions
- Title(参考訳): 自己相関行動を用いた強化学習の枠組み
- Authors: Marcin Szulc, Jakub {\L}yskawa, Pawe{\l} Wawrzy\'nski
- Abstract要約: ここでは、後続の時点における状態とランダムな要素に基づくアクションを生成するポリシーが検討されている。
ここでは、上記のポリシーを概ね最適化するアルゴリズムが導入された。
その効率性は4つの模擬学習制御問題に対して検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The subject of this paper is reinforcement learning. Policies are considered
here that produce actions based on states and random elements autocorrelated in
subsequent time instants. Consequently, an agent learns from experiments that
are distributed over time and potentially give better clues to policy
improvement. Also, physical implementation of such policies, e.g. in robotics,
is less problematic, as it avoids making robots shake. This is in opposition to
most RL algorithms which add white noise to control causing unwanted shaking of
the robots. An algorithm is introduced here that approximately optimizes the
aforementioned policy. Its efficiency is verified for four simulated learning
control problems (Ant, HalfCheetah, Hopper, and Walker2D) against three other
methods (PPO, SAC, ACER). The algorithm outperforms others in three of these
problems.
- Abstract(参考訳): 本論文の主題は強化学習である。
ここでは、状態と乱数要素に基づくアクションを後続のタイミングで自動相関するポリシーが検討されている。
その結果、エージェントは、時間とともに分散する実験から学び、ポリシー改善のヒントとなる可能性がある。
また、ロボットが振る舞うのを避けるため、ロボット工学など、そのようなポリシーの物理的実装は問題にならない。
これは、ロボットの望ましくない揺れを引き起こす制御に白色ノイズを加えるほとんどのRLアルゴリズムとは対照的である。
上記のポリシーを概ね最適化するアルゴリズムが導入された。
その効率は、他の3つの方法(ppo, sac, acer)に対する4つのシミュレーション学習制御問題(ant, halfcheetah, hopper, walker2d)に対して検証される。
このアルゴリズムは他の3つの問題よりも優れている。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Off-Policy Deep Reinforcement Learning Algorithms for Handling Various
Robotic Manipulator Tasks [0.0]
本研究では,Fetchロボットマニピュレータの訓練にDDPG,TD3,SACの3つの強化学習アルゴリズムを用いた。
これらのアルゴリズムはすべて非政治的であり、ポリシーと値関数の両方を最適化することで、彼らの望ましい目標を達成することができる。
論文 参考訳(メタデータ) (2022-12-11T18:25:24Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Prioritized SIPP for Multi-Agent Path Finding With Kinematic Constraints [0.0]
MAPF(Multi-Agent Path Finding)は、ロボティクスと人工知能における長年の問題である。
この問題をある程度緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-08-11T10:42:11Z) - ACERAC: Efficient reinforcement learning in fine time discretization [0.0]
本フレームワークでは,微時間分別学習における強化学習(RL)の枠組みと学習アルゴリズムを提案する。
このアルゴリズムの効率は、3つの他のRL法と異なる時間差で検証される。
論文 参考訳(メタデータ) (2021-04-08T18:40:20Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。