論文の概要: ACERAC: Efficient reinforcement learning in fine time discretization
- arxiv url: http://arxiv.org/abs/2104.04004v1
- Date: Thu, 8 Apr 2021 18:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:00:37.131420
- Title: ACERAC: Efficient reinforcement learning in fine time discretization
- Title(参考訳): ACERAC:微細時間離散化における効率的な強化学習
- Authors: Pawe{\l} Wawrzy\'nski, Jakub {\L}yskawa
- Abstract要約: 本フレームワークでは,微時間分別学習における強化学習(RL)の枠組みと学習アルゴリズムを提案する。
このアルゴリズムの効率は、3つの他のRL法と異なる時間差で検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for reinforcement learning (RL) in fine time
discretization and a learning algorithm in this framework. One of the main
goals of RL is to provide a way for physical machines to learn optimal behavior
instead of being programmed. However, the machines are usually controlled in
fine time discretization. The most common RL methods apply independent random
elements to each action, which is not suitable in that setting. It is not
feasible because it causes the controlled system to jerk, and does not ensure
sufficient exploration since a single action is not long enough to create a
significant experience that could be translated into policy improvement. In the
RL framework introduced in this paper, policies are considered that produce
actions based on states and random elements autocorrelated in subsequent time
instants. The RL algorithm introduced here approximately optimizes such a
policy. The efficiency of this algorithm is verified against three other RL
methods (PPO, SAC, ACER) in four simulated learning control problems (Ant,
HalfCheetah, Hopper, and Walker2D) in diverse time discretization. The
algorithm introduced here outperforms the competitors in most cases considered.
- Abstract(参考訳): 本稿では,細時間離散化における強化学習(rl)の枠組みと学習アルゴリズムを提案する。
RLの主な目的の1つは、物理機械がプログラムされる代わりに最適な振る舞いを学ぶ方法を提供することである。
しかし、機械は通常細かな時間の離散化で制御される。
最も一般的なRL法は、それぞれのアクションに独立なランダム要素を適用するが、その設定には適さない。
制御されたシステムを混乱させるので実現不可能であり、単一のアクションが政策改善に翻訳可能な重要なエクスペリエンスを生み出すのに十分ではないため、十分な探索が保証されない。
本稿で紹介したRLフレームワークでは、状態と乱数要素に基づくアクションを後続のタイミングで自動相関するポリシーが検討されている。
ここで導入されたRLアルゴリズムは、そのようなポリシーを概ね最適化する。
このアルゴリズムの効率は、4つのシミュレーション学習制御問題 (ant, halfcheetah, hopper, walker2d) における他の3つのrl法 (ppo, sac, acer) で検証された。
ここで導入されたアルゴリズムは、ほとんどのケースで競合を上回っている。
関連論文リスト
- When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Actor-Critic with variable time discretization via sustained actions [0.0]
SusACERは、異なる時間離散化設定の利点を組み合わせた、非政治強化学習アルゴリズムである。
ロボット制御環境における時間偏差変化の影響を解析する:Ant, HalfCheetah, Hopper, Walker2D。
論文 参考訳(メタデータ) (2023-08-08T14:45:00Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - A framework for reinforcement learning with autocorrelated actions [0.0]
ここでは、後続の時点における状態とランダムな要素に基づくアクションを生成するポリシーが検討されている。
ここでは、上記のポリシーを概ね最適化するアルゴリズムが導入された。
その効率性は4つの模擬学習制御問題に対して検証される。
論文 参考訳(メタデータ) (2020-09-10T11:23:09Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。