論文の概要: FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
- arxiv url: http://arxiv.org/abs/2505.22642v2
- Date: Thu, 29 May 2025 17:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.202142
- Title: FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
- Title(参考訳): FastTD3: ヒューマノイド制御のためのシンプルで高速で有能な強化学習
- Authors: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel,
- Abstract要約: FastTD3は強化学習(RL)アルゴリズムで、1つのA100 GPU上で3時間以内のHumanoidBenchタスクを解く。
我々はまた、ロボット工学におけるRL研究を加速するために、FastTD3の軽量で使いやすい実装を提供する。
- 参考スコア(独自算出の注目度): 49.08235196039602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has driven significant progress in robotics, but its complexity and long training times remain major bottlenecks. In this report, we introduce FastTD3, a simple, fast, and capable RL algorithm that significantly speeds up training for humanoid robots in popular suites such as HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably simple: we train an off-policy TD3 agent with several modifications -- parallel simulation, large-batch updates, a distributional critic, and carefully tuned hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours on a single A100 GPU, while remaining stable during training. We also provide a lightweight and easy-to-use implementation of FastTD3 to accelerate RL research in robotics.
- Abstract(参考訳): 強化学習(RL)はロボット工学に大きな進歩をもたらしたが、その複雑さと長い訓練時間は大きなボトルネックのままである。
本稿では,HumanoidBench,IsaLab,MuJoCo Playgroundなどの人気スイートにおけるヒューマノイドロボットのトレーニングを著しく高速化する,シンプルで高速かつ能動的RLアルゴリズムであるFastTD3を紹介する。
私たちは、並列シミュレーション、大規模なバッチ更新、分散評論家、慎重に調整されたハイパーパラメーターなど、いくつかの修正を加えて、オフポリティクスのTD3エージェントをトレーニングします。
FastTD3は、1つのA100 GPU上で3時間以内のHumanoidBenchタスクを、トレーニング中に安定して解決する。
我々はまた、ロボット工学におけるRL研究を加速するために、FastTD3の軽量で使いやすい実装を提供する。
関連論文リスト
- RobocupGym: A challenging continuous control benchmark in Robocup [7.926196208425107]
本稿では,オープンソースのrcssserver3dサッカーサーバをベースとしたRobocupベースのRL環境を提案する。
各タスクでは、RLエージェントがシミュレートされたロボットを制御し、ボールや他のエージェントと対話することができる。
論文 参考訳(メタデータ) (2024-07-03T15:26:32Z) - RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models [16.963228633341792]
強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。
RLinguaは大規模言語モデル(LLM)の内部知識を活用でき、ロボット操作におけるRLの複雑さを軽減できるフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T04:13:26Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Rapid Locomotion via Reinforcement Learning [15.373208553045416]
我々はMIT Mini Cheetahで記録的な俊敏性を実現するエンドツーエンドの学習コントローラを提案する。
このシステムは、草、氷、砂利などの自然の地形で速く動き、乱れに強く反応する。
論文 参考訳(メタデータ) (2022-05-05T17:55:11Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。
実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。
本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-05-12T12:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。