Fugu-MT 論文翻訳(概要): Deployable Reinforcement Learning with Variable Control Rate

論文の概要: Deployable Reinforcement Learning with Variable Control Rate

arxiv url: http://arxiv.org/abs/2401.09286v1
Date: Wed, 17 Jan 2024 15:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 15:25:01.208719
Title: Deployable Reinforcement Learning with Variable Control Rate
Title（参考訳）: 可変制御率による展開型強化学習
Authors: Dong Wang and Giovanni Beltrame
Abstract要約: 可変制御率を持つ強化学習(RL)の変種を提案する。このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
参考スコア（独自算出の注目度）: 17.529703157304887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying controllers trained with Reinforcement Learning (RL) on real robots can be challenging: RL relies on agents' policies being modeled as Markov Decision Processes (MDPs), which assume an inherently discrete passage of time. The use of MDPs results in that nearly all RL-based control systems employ a fixed-rate control strategy with a period (or time step) typically chosen based on the developer's experience or specific characteristics of the application environment. Unfortunately, the system should be controlled at the highest, worst-case frequency to ensure stability, which can demand significant computational and energy resources and hinder the deployability of the controller on onboard hardware. Adhering to the principles of reactive programming, we surmise that applying control actions only when necessary enables the use of simpler hardware and helps reduce energy consumption. We challenge the fixed frequency assumption by proposing a variant of RL with variable control rate. In this approach, the policy decides the action the agent should take as well as the duration of the time step associated with that action. In our new setting, we expand Soft Actor-Critic (SAC) to compute the optimal policy with a variable control rate, introducing the Soft Elastic Actor-Critic (SEAC) algorithm. We show the efficacy of SEAC through a proof-of-concept simulation driving an agent with Newtonian kinematics. Our experiments show higher average returns, shorter task completion times, and reduced computational resources when compared to fixed rate policies.
Abstract（参考訳）: 強化学習(RL)で訓練されたコントローラを現実のロボットに配置することは困難である: RLはエージェントのポリシーに依存してマルコフ決定プロセス(MDP)としてモデル化され、本質的に離散的な時間の経過を前提としている。 MDPの使用により、ほぼすべてのRLベースの制御システムは、通常、開発者の経験やアプリケーション環境の特定の特性に基づいて、一定期間(または時間ステップ)の制御戦略を採用することになる。残念なことに、このシステムは安定性を確保するために最高かつ最悪の周波数で制御されなければならない。リアクティブプログラミングの原則に従うことで、必要な時にのみコントロールアクションを適用することで、よりシンプルなハードウェアの使用が可能になり、エネルギー消費の削減に役立ちます。可変制御率を持つRLの変種を提案することにより、固定周波数の仮定に挑戦する。このアプローチでは、ポリシーはエージェントが行うべきアクションと、そのアクションに関連する時間ステップの期間を決定する。我々の新しい設定では、Soft Elastic Actor-Critic (SEAC)アルゴリズムを導入し、可変制御率で最適なポリシーを計算するためにSoft Elastic Actor-Critic (SAC)を拡張した。ニュートン運動学のエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。実験の結果, 平均リターンが向上し, タスク完了時間が短縮され, 計算資源の削減が図られた。

関連論文リスト

MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。 MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文参考訳（メタデータ） (2024-06-03T16:51:57Z)
When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文参考訳（メタデータ） (2024-06-03T09:57:18Z)
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文参考訳（メタデータ） (2024-04-05T17:58:37Z)
Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文参考訳（メタデータ） (2024-02-22T20:49:04Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)
Improving the Performance of Robust Control through Event-Triggered Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文参考訳（メタデータ） (2022-07-28T17:36:37Z)
Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-19T05:55:02Z)
Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-09T17:09:51Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
A Relearning Approach to Reinforcement Learning for Control of Smart Buildings [1.8799681615947088]
本稿では、漸進的深層学習(RL)を用いた制御方針の連続的再学習が、非定常過程におけるポリシー学習を改善することを実証する。我々は,全体の快適さを犠牲にすることなく,建築エネルギーを同時に削減するインクリメンタルRL技術を開発した。
論文参考訳（メタデータ） (2020-08-04T23:31:05Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。