論文の概要: Deep Black-Box Reinforcement Learning with Movement Primitives
- arxiv url: http://arxiv.org/abs/2210.09622v1
- Date: Tue, 18 Oct 2022 06:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:03:31.003909
- Title: Deep Black-Box Reinforcement Learning with Movement Primitives
- Title(参考訳): 運動プリミティブを用いた深部ブラックボックス強化学習
- Authors: Fabian Otto, Onur Celik, Hongyi Zhou, Hanna Ziesche, Ngo Anh Vien,
Gerhard Neumann
- Abstract要約: 深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 15.184283143878488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \Episode-based reinforcement learning (ERL) algorithms treat reinforcement
learning (RL) as a black-box optimization problem where we learn to select a
parameter vector of a controller, often represented as a movement primitive,
for a given task descriptor called a context. ERL offers several distinct
benefits in comparison to step-based RL. It generates smooth control
trajectories, can handle non-Markovian reward definitions, and the resulting
exploration in parameter space is well suited for solving sparse reward
settings. Yet, the high dimensionality of the movement primitive parameters has
so far hampered the effective use of deep RL methods. In this paper, we present
a new algorithm for deep ERL. It is based on differentiable trust region
layers, a successful on-policy deep RL algorithm. These layers allow us to
specify trust regions for the policy update that are solved exactly for each
state using convex optimization, which enables policies learning with the high
precision required for the ERL. We compare our ERL algorithm to
state-of-the-art step-based algorithms in many complex simulated robotic
control tasks. In doing so, we investigate different reward formulations -
dense, sparse, and non-Markovian. While step-based algorithms perform well only
on dense rewards, ERL performs favorably on sparse and non-Markovian rewards.
Moreover, our results show that the sparse and the non-Markovian rewards are
also often better suited to define the desired behavior, allowing us to obtain
considerably higher quality policies compared to step-based RL.
- Abstract(参考訳): Episode-based reinforcement learning (ERL)アルゴリズムは強化学習(RL)をブラックボックス最適化問題として扱い、コンテキストと呼ばれるタスク記述子に対して、制御器のパラメータベクトル(しばしば移動プリミティブとして表現される)を選択することを学習する。
ERLはステップベースのRLと比較していくつかの異なる利点がある。
滑らかな制御軌道を生成し、非マルコフ報酬の定義を処理でき、パラメータ空間の探索はスパース報酬設定の解決に適している。
しかし, 移動原始パラメータの高次元性は, 深部RL法の有効利用を妨げている。
本稿では,深部ERLのための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、異なる信頼領域層に基づいている。
これらのレイヤは、凸最適化を用いて各状態に対して正確に解決されたポリシー更新のための信頼領域を特定でき、ERLに必要な高精度なポリシー学習を可能にする。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
そこで,様々な報酬定式化法,スパース法,非マルコフ法について検討した。
ステップベースのアルゴリズムは密度の高い報酬に対してのみうまく機能するが、ERLはスパースや非マルコフの報酬に対して良好に機能する。
さらに, sparse と non-markovian rewards が望ましい動作を定義するのに適していることが示され, ステップベースの rl と比較してかなり高い品質のポリシーを得ることができた。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - How does Your RL Agent Explore? An Optimal Transport Analysis of Occupancy Measure Trajectories [8.429001045596687]
我々は、RLアルゴリズムの学習過程を、トレーニング中に生成されたポリシーのシーケンスとして表現する。
次に、状態-作用占有度尺度の多様体に誘導される政策軌跡について検討する。
論文 参考訳(メタデータ) (2024-02-14T11:55:50Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。
本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。
RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-15T16:08:45Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。