論文の概要: Reinforcement Learning with Elastic Time Steps
- arxiv url: http://arxiv.org/abs/2402.14961v1
- Date: Thu, 22 Feb 2024 20:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:30:37.049513
- Title: Reinforcement Learning with Elastic Time Steps
- Title(参考訳): 弾性時間ステップによる強化学習
- Authors: Dong Wang and Giovanni Beltrame
- Abstract要約: ソフト・Elastic Actor-Critic (SEAC) は、この問題に対処するための非政治的アクター批判アルゴリズムである。
SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。
ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。
- 参考スコア(独自算出の注目度): 17.529703157304887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Reinforcement Learning (RL) algorithms are usually applied in
robotics to learn controllers that act with a fixed control rate. Given the
discrete nature of RL algorithms, they are oblivious to the effects of the
choice of control rate: finding the correct control rate can be difficult and
mistakes often result in excessive use of computing resources or even lack of
convergence.
We propose Soft Elastic Actor-Critic (SEAC), a novel off-policy actor-critic
algorithm to address this issue. SEAC implements elastic time steps, time steps
with a known, variable duration, which allow the agent to change its control
frequency to adapt to the situation. In practice, SEAC applies control only
when necessary, minimizing computational resources and data usage.
We evaluate SEAC's capabilities in simulation in a Newtonian kinematics maze
navigation task and on a 3D racing video game, Trackmania. SEAC outperforms the
SAC baseline in terms of energy efficiency and overall time management, and
most importantly without the need to identify a control frequency for the
learned controller. SEAC demonstrated faster and more stable training speeds
than SAC, especially at control rates where SAC struggled to converge.
We also compared SEAC with a similar approach, the Continuous-Time
Continuous-Options (CTCO) model, and SEAC resulted in better task performance.
These findings highlight the potential of SEAC for practical, real-world RL
applications in robotics.
- Abstract(参考訳): 従来の強化学習(RL)アルゴリズムは通常、ロボット工学に適用され、一定の制御率で動作するコントローラを学ぶ。
rlアルゴリズムの離散的な性質を考えると、それらは制御率の選択の影響に従わない:正しい制御率を見つけることは困難であり、ミスがしばしば計算リソースの過剰使用や収束の欠如をもたらす。
本稿では,この問題に対処する新規な非政治アクタ批判アルゴリズムであるソフト・弾性アクタ批判(SEAC)を提案する。
SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。
実際には、SEACは必要なときにのみ制御を適用し、計算資源とデータ使用量を最小化する。
ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。
SEACは、エネルギー効率と全体的な時間管理の点でSACベースラインを上回り、最も重要なことは、学習したコントローラの制御周波数を特定する必要がないことである。
SEACは、特にSACが収束するのに苦労した制御速度において、SACよりも高速で安定した訓練速度を示した。
また、SEACと同様のアプローチ、CTCO(Continuous-Time Continuous-Options)モデルを比較しました。
これらの結果は、ロボット工学における実世界の実世界のRL応用におけるSEACの可能性を示している。
関連論文リスト
- Deployable Reinforcement Learning with Variable Control Rate [17.529703157304887]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文 参考訳(メタデータ) (2022-09-26T22:04:35Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - ACERAC: Efficient reinforcement learning in fine time discretization [0.0]
本フレームワークでは,微時間分別学習における強化学習(RL)の枠組みと学習アルゴリズムを提案する。
このアルゴリズムの効率は、3つの他のRL法と異なる時間差で検証される。
論文 参考訳(メタデータ) (2021-04-08T18:40:20Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - A Relearning Approach to Reinforcement Learning for Control of Smart
Buildings [1.8799681615947088]
本稿では、漸進的深層学習(RL)を用いた制御方針の連続的再学習が、非定常過程におけるポリシー学習を改善することを実証する。
我々は,全体の快適さを犠牲にすることなく,建築エネルギーを同時に削減するインクリメンタルRL技術を開発した。
論文 参考訳(メタデータ) (2020-08-04T23:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。