論文の概要: Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies
- arxiv url: http://arxiv.org/abs/2109.05604v1
- Date: Sun, 12 Sep 2021 20:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:13:22.710438
- Title: Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies
- Title(参考訳): 深層強化学習ポリシーの微調整のための直接ランダム探索法
- Authors: Sean Gillen, Asutay Ozmen, Katie Byl
- Abstract要約: 直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
- 参考スコア(独自算出の注目度): 5.543220407902113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have demonstrated that Deep Reinforcement Learning (DRL) is a
powerful tool for finding policies that perform well on complex robotic
systems. However, these policies are often unpredictable and can induce highly
variable behavior when evaluated with only slightly different initial
conditions. Training considerations constrain DRL algorithm designs in that
most algorithms must use stochastic policies during training. The resulting
policy used during deployment, however, can and frequently is a deterministic
one that uses the Maximum Likelihood Action (MLA) at each step. In this work,
we show that a direct random search is very effective at fine-tuning DRL
policies by directly optimizing them using deterministic rollouts. We
illustrate this across a large collection of reinforcement learning
environments, using a wide variety of policies obtained from different
algorithms. Our results show that this method yields more consistent and higher
performing agents on the environments we tested. Furthermore, we demonstrate
how this method can be used to extend our previous work on shrinking the
dimensionality of the reachable state space of closed-loop systems run under
Deep Neural Network (DNN) policies.
- Abstract(参考訳): 研究者は、Deep Reinforcement Learning(DRL)が複雑なロボットシステムでうまく機能するポリシーを見つけるための強力なツールであることを示した。
しかし、これらのポリシーはしばしば予測不可能であり、わずかに異なる初期条件で評価した場合、高度に変動する振る舞いを引き起こす。
訓練の考慮事項はDRLアルゴリズムの設計を制約し、ほとんどのアルゴリズムは訓練中に確率的ポリシーを使わなければならない。
しかしながら、デプロイメントで使用されるポリシーは、各ステップで最大可能性アクション(mla)を使用する決定論的なものです。
本研究では,決定論的ロールアウトを用いて直接最適化することにより,DRLポリシーを微調整する上で,直接ランダム検索が極めて有効であることを示す。
異なるアルゴリズムから得られた多種多様なポリシーを用いて、強化学習環境の大規模な集合について説明する。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
さらに,この手法を用いて,Deep Neural Network (DNN) ポリシーの下で動作している閉ループシステムの到達可能な状態空間の次元を縮小する方法について,これまでの研究を拡張できることを示す。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - POLTER: Policy Trajectory Ensemble Regularization for Unsupervised
Reinforcement Learning [30.834631947104498]
本稿では,任意のURLアルゴリズムに適用可能な事前学習を正規化するためのPOLTERを提案する。
教師なし強化学習ベンチマーク(URLB)におけるPOLTERの評価を行った。
本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2022-05-23T14:42:38Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。