論文の概要: Towards Automatic Actor-Critic Solutions to Continuous Control
- arxiv url: http://arxiv.org/abs/2106.08918v1
- Date: Wed, 16 Jun 2021 16:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 21:43:18.752217
- Title: Towards Automatic Actor-Critic Solutions to Continuous Control
- Title(参考訳): 連続制御のためのアクタークリティカル自動解を目指して
- Authors: Jake Grigsby, Jin Yong Yoo, Yanjun Qi
- Abstract要約: 本稿では,アクター批判アルゴリズムを新しいドメインにチューニングする進化的アプローチを提案する。
私たちの設計は、サンプル効率が高く、ベースラインアプローチよりも実用的な利点を提供します。
次に、計算と研究の最小限の労力で高性能なソリューションを見つけるために、新しい制御タスクに適用する。
- 参考スコア(独自算出の注目度): 7.312692481631664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free off-policy actor-critic methods are an efficient solution to
complex continuous control tasks. However, these algorithms rely on a number of
design tricks and many hyperparameters, making their applications to new
domains difficult and computationally expensive. This paper creates an
evolutionary approach that automatically tunes these design decisions and
eliminates the RL-specific hyperparameters from the Soft Actor-Critic
algorithm. Our design is sample efficient and provides practical advantages
over baseline approaches, including improved exploration, generalization over
multiple control frequencies, and a robust ensemble of high-performance
policies. Empirically, we show that our agent outperforms well-tuned
hyperparameter settings in popular benchmarks from the DeepMind Control Suite.
We then apply it to new control tasks to find high-performance solutions with
minimal compute and research effort.
- Abstract(参考訳): モデルフリーなアクター批判的手法は複雑な連続制御タスクの効率的な解法である。
しかし、これらのアルゴリズムは多くの設計トリックと多くのハイパーパラメータに依存しており、新しいドメインへの応用は困難で計算コストがかかる。
本稿では,これらの設計決定を自動的に調整し,ソフトアクタ-クリティックアルゴリズムからrl固有のハイパーパラメータを除去する進化的手法を提案する。
我々の設計はサンプル効率が高く、探索の改善、複数の制御周波数の一般化、高性能なポリシーの堅牢なアンサンブルなど、ベースラインアプローチよりも実用的な利点を提供する。
実験により、私たちのエージェントはDeepMind Control Suiteの人気のあるベンチマークにおいて、よく調整されたハイパーパラメータ設定よりも優れています。
そして、それを新しい制御タスクに適用して、最小限の計算と研究努力でハイパフォーマンスなソリューションを見つけます。
関連論文リスト
- MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Tune As You Scale: Hyperparameter Optimization For Compute Efficient
Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。
CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。
その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文 参考訳(メタデータ) (2023-06-13T18:22:24Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Multi-Level Evolution Strategies for High-Resolution Black-Box Control [0.2320417845168326]
本稿では進化戦略(ES)にマルチレベル(m-lev)機構を導入する。
これは、決定変数の詳細な離散化の恩恵を受けることができる、グローバルな最適化問題のクラスに対処する。
論文 参考訳(メタデータ) (2020-10-04T09:24:40Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。