論文の概要: Reinforcement Learning with Elastic Time Steps
- arxiv url: http://arxiv.org/abs/2402.14961v3
- Date: Wed, 3 Jul 2024 00:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:04:00.445281
- Title: Reinforcement Learning with Elastic Time Steps
- Title(参考訳): 弾性時間ステップによる強化学習
- Authors: Dong Wang, Giovanni Beltrame,
- Abstract要約: Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。
我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
- 参考スコア(独自算出の注目度): 14.838483990647697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Reinforcement Learning (RL) policies are typically implemented with fixed control rates, often disregarding the impact of control rate selection. This can lead to inefficiencies as the optimal control rate varies with task requirements. We propose the Multi-Objective Soft Elastic Actor-Critic (MOSEAC), an off-policy actor-critic algorithm that uses elastic time steps to dynamically adjust the control frequency. This approach minimizes computational resources by selecting the lowest viable frequency. We show that MOSEAC converges and produces stable policies at the theoretical level, and validate our findings in a real-time 3D racing game. MOSEAC significantly outperformed other variable time step approaches in terms of energy efficiency and task effectiveness. Additionally, MOSEAC demonstrated faster and more stable training, showcasing its potential for real-world RL applications in robotics.
- Abstract(参考訳): 従来の強化学習(RL)のポリシーは、しばしば制御率の選択の影響を無視して、固定的な制御率で実装される。
最適な制御速度がタスク要求によって異なるため、これは非効率につながる可能性がある。
本稿では, 動的制御周波数を動的に調整するために, 弾力的な時間ステップを用いた非政治アクター批判アルゴリズムであるMulti-Objective Soft Elastic Actor-Critic (MOSEAC)を提案する。
このアプローチは、最小の実効周波数を選択することで、計算資源を最小化する。
我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
MOSEACはエネルギー効率とタスク効率の点で他の可変時間ステップのアプローチよりも大幅に優れていた。
さらに、MOSEACはより速くより安定したトレーニングを行い、ロボット工学における実世界のRL応用の可能性を示した。
関連論文リスト
- MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文 参考訳(メタデータ) (2022-12-06T19:51:12Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。