論文の概要: Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution
- arxiv url: http://arxiv.org/abs/2404.04253v1
- Date: Fri, 5 Apr 2024 17:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:26:09.623665
- Title: Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution
- Title(参考訳): 成長するQ-Networks: 適応的制御解決による継続的制御タスクの解決
- Authors: Tim Seyde, Peter Werner, Wilko Schwarting, Markus Wulfmeier, Daniela Rus,
- Abstract要約: ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
- 参考スコア(独自算出の注目度): 51.83951489847344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement learning approaches have shown surprisingly strong capabilities of bang-bang policies for solving continuous control benchmarks. The underlying coarse action space discretizations often yield favourable exploration characteristics while final performance does not visibly suffer in the absence of action penalization in line with optimal control theory. In robotics applications, smooth control signals are commonly preferred to reduce system wear and energy efficiency, but action costs can be detrimental to exploration during early training. In this work, we aim to bridge this performance gap by growing discrete action spaces from coarse to fine control resolution, taking advantage of recent results in decoupled Q-learning to scale our approach to high-dimensional action spaces up to dim(A) = 38. Our work indicates that an adaptive control resolution in combination with value decomposition yields simple critic-only algorithms that yield surprisingly strong performance on continuous control tasks.
- Abstract(参考訳): 最近の強化学習アプローチは、連続制御ベンチマークを解くためのバンバンポリシーの驚くほど強力な能力を示している。
基礎となる粗い作用空間の離散化は、しばしば好ましい探索特性をもたらすが、最終的な性能は最適制御理論に則って、作用のペナル化が欠如していることに視覚的に苦しむことはない。
ロボット工学の応用においては、スムーズな制御信号はシステム摩耗とエネルギー効率を低下させるために一般的に好まれるが、初期の訓練において、行動コストは探索に有害である。
本研究では,高次元の動作空間へのアプローチをディム(A) = 38まで拡張するために,離散的な動作空間を粗い状態から微妙な制御解像度に拡張することで,この性能ギャップを埋めることを目的としている。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
関連論文リスト
- Investigating the Impact of Choice on Deep Reinforcement Learning for Space Controls [0.3441021278275805]
本稿では、エージェントが予め定義されたアクションリストから選択しなければならない個別のアクション空間を用いて分析する。
検査作業では、エージェントが物体を周航して表面上の点を検査し、ドッキングタスクでは、エージェントが別の宇宙船やドックの近くに移動しなければならない。
両方のタスクの共通の目的は、燃料の使用を最小化することであり、燃料を使用しないアクションを定期的に選択する動機となっている。
論文 参考訳(メタデータ) (2024-05-20T20:06:54Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Is Bang-Bang Control All You Need? Solving Continuous Control with
Bernoulli Policies [45.20170713261535]
我々は、訓練されたエージェントが、その空間の境界におけるアクションをしばしば好む現象を調査する。
通常のガウス分布を、各作用次元に沿った極性のみを考えるベルヌーイ分布に置き換える。
驚くべきことに、これはいくつかの継続的制御ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-03T22:45:55Z) - Adaptive control of a mechatronic system using constrained residual
reinforcement learning [0.0]
本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。
本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
論文 参考訳(メタデータ) (2021-10-06T08:13:05Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。