論文の概要: Deployable Reinforcement Learning with Variable Control Rate
- arxiv url: http://arxiv.org/abs/2401.09286v1
- Date: Wed, 17 Jan 2024 15:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:25:01.208719
- Title: Deployable Reinforcement Learning with Variable Control Rate
- Title(参考訳): 可変制御率による展開型強化学習
- Authors: Dong Wang and Giovanni Beltrame
- Abstract要約: 可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
- 参考スコア(独自算出の注目度): 17.529703157304887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying controllers trained with Reinforcement Learning (RL) on real robots
can be challenging: RL relies on agents' policies being modeled as Markov
Decision Processes (MDPs), which assume an inherently discrete passage of time.
The use of MDPs results in that nearly all RL-based control systems employ a
fixed-rate control strategy with a period (or time step) typically chosen based
on the developer's experience or specific characteristics of the application
environment. Unfortunately, the system should be controlled at the highest,
worst-case frequency to ensure stability, which can demand significant
computational and energy resources and hinder the deployability of the
controller on onboard hardware. Adhering to the principles of reactive
programming, we surmise that applying control actions only when necessary
enables the use of simpler hardware and helps reduce energy consumption. We
challenge the fixed frequency assumption by proposing a variant of RL with
variable control rate. In this approach, the policy decides the action the
agent should take as well as the duration of the time step associated with that
action. In our new setting, we expand Soft Actor-Critic (SAC) to compute the
optimal policy with a variable control rate, introducing the Soft Elastic
Actor-Critic (SEAC) algorithm. We show the efficacy of SEAC through a
proof-of-concept simulation driving an agent with Newtonian kinematics. Our
experiments show higher average returns, shorter task completion times, and
reduced computational resources when compared to fixed rate policies.
- Abstract(参考訳): 強化学習(RL)で訓練されたコントローラを現実のロボットに配置することは困難である: RLはエージェントのポリシーに依存してマルコフ決定プロセス(MDP)としてモデル化され、本質的に離散的な時間の経過を前提としている。
MDPの使用により、ほぼすべてのRLベースの制御システムは、通常、開発者の経験やアプリケーション環境の特定の特性に基づいて、一定期間(または時間ステップ)の制御戦略を採用することになる。
残念なことに、このシステムは安定性を確保するために最高かつ最悪の周波数で制御されなければならない。
リアクティブプログラミングの原則に従うことで、必要な時にのみコントロールアクションを適用することで、よりシンプルなハードウェアの使用が可能になり、エネルギー消費の削減に役立ちます。
可変制御率を持つRLの変種を提案することにより、固定周波数の仮定に挑戦する。
このアプローチでは、ポリシーはエージェントが行うべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
我々の新しい設定では、Soft Elastic Actor-Critic (SEAC)アルゴリズムを導入し、可変制御率で最適なポリシーを計算するためにSoft Elastic Actor-Critic (SAC)を拡張した。
ニュートン運動学のエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
実験の結果, 平均リターンが向上し, タスク完了時間が短縮され, 計算資源の削減が図られた。
関連論文リスト
- Reinforcement Learning with Elastic Time Steps [17.529703157304887]
ソフト・Elastic Actor-Critic (SEAC) は、この問題に対処するための非政治的アクター批判アルゴリズムである。
SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。
ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。
論文 参考訳(メタデータ) (2024-02-22T20:49:04Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Optimization of the Model Predictive Control Update Interval Using
Reinforcement Learning [0.7952582509792969]
制御アプリケーションでは、コントローラの複雑さと性能に関して、しばしば妥協が必要である。
本稿では,制御対象に合わせて計算コストを明示的に最適化するコントローラアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-26T16:01:52Z) - A Relearning Approach to Reinforcement Learning for Control of Smart
Buildings [1.8799681615947088]
本稿では、漸進的深層学習(RL)を用いた制御方針の連続的再学習が、非定常過程におけるポリシー学習を改善することを実証する。
我々は,全体の快適さを犠牲にすることなく,建築エネルギーを同時に削減するインクリメンタルRL技術を開発した。
論文 参考訳(メタデータ) (2020-08-04T23:31:05Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。