論文の概要: Is Bang-Bang Control All You Need? Solving Continuous Control with
Bernoulli Policies
- arxiv url: http://arxiv.org/abs/2111.02552v1
- Date: Wed, 3 Nov 2021 22:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 14:47:49.289945
- Title: Is Bang-Bang Control All You Need? Solving Continuous Control with
Bernoulli Policies
- Title(参考訳): バンバンバンはコントロールできるのか?
Bernoulli Policiesによる継続的制御の解決
- Authors: Tim Seyde, Igor Gilitschenski, Wilko Schwarting, Bartolomeo Stellato,
Martin Riedmiller, Markus Wulfmeier, Daniela Rus
- Abstract要約: 我々は、訓練されたエージェントが、その空間の境界におけるアクションをしばしば好む現象を調査する。
通常のガウス分布を、各作用次元に沿った極性のみを考えるベルヌーイ分布に置き換える。
驚くべきことに、これはいくつかの継続的制御ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 45.20170713261535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) for continuous control typically employs
distributions whose support covers the entire action space. In this work, we
investigate the colloquially known phenomenon that trained agents often prefer
actions at the boundaries of that space. We draw theoretical connections to the
emergence of bang-bang behavior in optimal control, and provide extensive
empirical evaluation across a variety of recent RL algorithms. We replace the
normal Gaussian by a Bernoulli distribution that solely considers the extremes
along each action dimension - a bang-bang controller. Surprisingly, this
achieves state-of-the-art performance on several continuous control benchmarks
- in contrast to robotic hardware, where energy and maintenance cost affect
controller choices. Since exploration, learning,and the final solution are
entangled in RL, we provide additional imitation learning experiments to reduce
the impact of exploration on our analysis. Finally, we show that our
observations generalize to environments that aim to model real-world challenges
and evaluate factors to mitigate the emergence of bang-bang solutions. Our
findings emphasize challenges for benchmarking continuous control algorithms,
particularly in light of potential real-world applications.
- Abstract(参考訳): 継続的制御のための強化学習(RL)は、通常、アクション空間全体をカバーしている分布を用いる。
本研究では、訓練されたエージェントが、その空間の境界における行動を好むことがよく知られている現象について検討する。
最適制御におけるバンバン動作の出現に関する理論的な関係を描き、近年のRLアルゴリズムにまたがる広範な経験的評価を提供する。
通常のガウス分布をベルヌーイ分布 (bernolli distribution) に置き換え、各作用次元の極値(バンバンバン制御)のみを考える。
ロボットハードウェアとは対照的に、エネルギーとメンテナンスコストがコントローラの選択に影響を与える。
探索,学習,最終解がRLに絡み合っているので,我々の分析に対する探索の影響を低減するために,さらなる模擬学習実験を行う。
最後に,実世界の課題をモデル化し,バンバン・バン・ソリューションの出現を緩和するための要因を評価する環境に,我々の観察が一般化することを示す。
我々の研究は、特に実世界の潜在的な応用の観点から、連続制御アルゴリズムのベンチマークの課題を強調した。
関連論文リスト
- Investigating the Impact of Choice on Deep Reinforcement Learning for Space Controls [0.3441021278275805]
本稿では、エージェントが予め定義されたアクションリストから選択しなければならない個別のアクション空間を用いて分析する。
検査作業では、エージェントが物体を周航して表面上の点を検査し、ドッキングタスクでは、エージェントが別の宇宙船やドックの近くに移動しなければならない。
両方のタスクの共通の目的は、燃料の使用を最小化することであり、燃料を使用しないアクションを定期的に選択する動機となっている。
論文 参考訳(メタデータ) (2024-05-20T20:06:54Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - A Safe Reinforcement Learning Algorithm for Supervisory Control of Power
Plants [7.1771300511732585]
モデルフリー強化学習(RL)は、制御タスクのための有望なソリューションとして登場した。
本稿では,監督制御のための近似ポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。
本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現するものである。
論文 参考訳(メタデータ) (2024-01-23T17:52:49Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。