論文の概要: Reinforcement Learning with Elastic Time Steps
- arxiv url: http://arxiv.org/abs/2402.14961v1
- Date: Thu, 22 Feb 2024 20:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:30:37.049513
- Title: Reinforcement Learning with Elastic Time Steps
- Title(参考訳): 弾性時間ステップによる強化学習
- Authors: Dong Wang and Giovanni Beltrame
- Abstract要約: ソフト・Elastic Actor-Critic (SEAC) は、この問題に対処するための非政治的アクター批判アルゴリズムである。
SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。
ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。
- 参考スコア(独自算出の注目度): 17.529703157304887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Reinforcement Learning (RL) algorithms are usually applied in
robotics to learn controllers that act with a fixed control rate. Given the
discrete nature of RL algorithms, they are oblivious to the effects of the
choice of control rate: finding the correct control rate can be difficult and
mistakes often result in excessive use of computing resources or even lack of
convergence.
We propose Soft Elastic Actor-Critic (SEAC), a novel off-policy actor-critic
algorithm to address this issue. SEAC implements elastic time steps, time steps
with a known, variable duration, which allow the agent to change its control
frequency to adapt to the situation. In practice, SEAC applies control only
when necessary, minimizing computational resources and data usage.
We evaluate SEAC's capabilities in simulation in a Newtonian kinematics maze
navigation task and on a 3D racing video game, Trackmania. SEAC outperforms the
SAC baseline in terms of energy efficiency and overall time management, and
most importantly without the need to identify a control frequency for the
learned controller. SEAC demonstrated faster and more stable training speeds
than SAC, especially at control rates where SAC struggled to converge.
We also compared SEAC with a similar approach, the Continuous-Time
Continuous-Options (CTCO) model, and SEAC resulted in better task performance.
These findings highlight the potential of SEAC for practical, real-world RL
applications in robotics.
- Abstract(参考訳): 従来の強化学習(RL)アルゴリズムは通常、ロボット工学に適用され、一定の制御率で動作するコントローラを学ぶ。
rlアルゴリズムの離散的な性質を考えると、それらは制御率の選択の影響に従わない:正しい制御率を見つけることは困難であり、ミスがしばしば計算リソースの過剰使用や収束の欠如をもたらす。
本稿では,この問題に対処する新規な非政治アクタ批判アルゴリズムであるソフト・弾性アクタ批判(SEAC)を提案する。
SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。
実際には、SEACは必要なときにのみ制御を適用し、計算資源とデータ使用量を最小化する。
ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。
SEACは、エネルギー効率と全体的な時間管理の点でSACベースラインを上回り、最も重要なことは、学習したコントローラの制御周波数を特定する必要がないことである。
SEACは、特にSACが収束するのに苦労した制御速度において、SACよりも高速で安定した訓練速度を示した。
また、SEACと同様のアプローチ、CTCO(Continuous-Time Continuous-Options)モデルを比較しました。
これらの結果は、ロボット工学における実世界の実世界のRL応用におけるSEACの可能性を示している。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Dynamic Decision Frequency with Continuous Options [11.83290684845269]
古典的な強化学習アルゴリズムでは、エージェントは離散時間と一定時間間隔で決定を行う。
本研究では,連続時間連続オプティオン(CTCO)と呼ばれるフレームワークを提案する。
本研究では,環境相互作用の周波数選択の影響を受けないことを示す。
論文 参考訳(メタデータ) (2022-12-06T19:51:12Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。