論文の概要: Regularizing Action Policies for Smooth Control with Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2012.06644v1
- Date: Fri, 11 Dec 2020 21:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:46:41.976978
- Title: Regularizing Action Policies for Smooth Control with Reinforcement
Learning
- Title(参考訳): 強化学習による平滑化制御のための正規化行動ポリシー
- Authors: Siddharth Mysore, Bassel Mabsout, Renato Mancuso, Kate Saenko
- Abstract要約: Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
- 参考スコア(独自算出の注目度): 47.312768123967025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical problem with the practical utility of controllers trained with
deep Reinforcement Learning (RL) is the notable lack of smoothness in the
actions learned by the RL policies. This trend often presents itself in the
form of control signal oscillation and can result in poor control, high power
consumption, and undue system wear. We introduce Conditioning for Action Policy
Smoothness (CAPS), an effective yet intuitive regularization on action
policies, which offers consistent improvement in the smoothness of the learned
state-to-action mappings of neural network controllers, reflected in the
elimination of high-frequency components in the control signal. Tested on a
real system, improvements in controller smoothness on a quadrotor drone
resulted in an almost 80% reduction in power consumption while consistently
training flight-worthy controllers. Project website: http://ai.bu.edu/caps
- Abstract(参考訳): 深層強化学習(RL)で訓練されたコントローラの実用性に関する重要な問題は、RLポリシーによって学習された動作のスムーズさの顕著な欠如である。
この傾向は、しばしば制御信号の発振という形で現れ、制御不良、高消費電力、不適切なシステム摩耗をもたらす可能性がある。
本稿では,ニューラルネットワーク制御器の学習状態間マッピングのスムーズさを一貫して改善し,制御信号の高周波成分の除去に反映した,効果的な行動ポリシーの直感的規則化である行動ポリシー平滑性(CAPS)について紹介する。
実システムでテストしたところ、クアドロタードローンのコントローラーのスムース性が改善され、飛行にふさわしいコントローラーを一貫して訓練しながら、消費電力が80%近く削減された。
プロジェクトウェブサイト: http://ai.bu.edu/caps
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Adversarially Regularized Policy Learning Guided by Trajectory
Optimization [31.122262331980153]
本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
論文 参考訳(メタデータ) (2021-09-16T00:02:11Z) - Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty [22.276925045008788]
emphglsrplは強化学習(RL)で既存のコントローラを改善するための定式化を提供する
位置・方向の不確実性を考慮したコンタクトリッチペグ挿入作業において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-08T13:06:35Z) - Lyapunov-Regularized Reinforcement Learning for Power System Transient
Stability [5.634825161148484]
本稿では、損失ネットワークにおける過渡安定性のための最適周波数制御のためのLyapunov正規化RLアプローチを提案する。
ケーススタディでは、リアプノフ正則化の導入により、コントローラの安定化と損失の低減が可能になる。
論文 参考訳(メタデータ) (2021-03-05T18:55:26Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。