論文の概要: High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures
- arxiv url: http://arxiv.org/abs/2504.17857v2
- Date: Tue, 29 Apr 2025 13:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.543511
- Title: High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures
- Title(参考訳): スポット上での高性能強化学習:分布測定によるシミュレーションパラメータの最適化
- Authors: AJ Miller, Fangzhou Yu, Michael Brauckmann, Farbod Farshidian,
- Abstract要約: 本稿では,Boston Dynamics Spot上での低レベルモータアクセスのためのSpot RL Researcher Development Kitを用いて,高性能強化学習ポリシーの展開の背景となる技術的詳細について述べる。
我々は,5.2ms以上のロコモーション,トリプルSpotsデフォルトのコントローラの最大速度以上のポリシを,滑りやすい表面への展開,外乱の拒絶,これまでSpotで見つからなかった全体的なアジリティに展開する。
- 参考スコア(独自算出の注目度): 8.437187555622167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents an overview of the technical details behind a high performance reinforcement learning policy deployment with the Spot RL Researcher Development Kit for low level motor access on Boston Dynamics Spot. This represents the first public demonstration of an end to end end reinforcement learning policy deployed on Spot hardware with training code publicly available through Nvidia IsaacLab and deployment code available through Boston Dynamics. We utilize Wasserstein Distance and Maximum Mean Discrepancy to quantify the distributional dissimilarity of data collected on hardware and in simulation to measure our sim2real gap. We use these measures as a scoring function for the Covariance Matrix Adaptation Evolution Strategy to optimize simulated parameters that are unknown or difficult to measure from Spot. Our procedure for modeling and training produces high quality reinforcement learning policies capable of multiple gaits, including a flight phase. We deploy policies capable of over 5.2ms locomotion, more than triple Spots default controller maximum speed, robustness to slippery surfaces, disturbance rejection, and overall agility previously unseen on Spot. We detail our method and release our code to support future work on Spot with the low level API.
- Abstract(参考訳): 本稿では,Boston Dynamics Spot上での低レベルモータアクセスのためのSpot RL Researcher Development Kitを用いて,高性能強化学習ポリシーの展開の背景となる技術的詳細について述べる。
これは、Spotハードウェア上にデプロイされたエンドツーエンドの強化学習ポリシの初めての公開デモンストレーションであり、トレーニングコードはNvidia IsaacLabで公開され、デプロイメントコードはBoston Dynamicsで利用可能である。
We use Wasserstein Distance and Maximum Mean Discrepancy to quantify the distributional dissimilarity of data collected on hardware and simulation to measure our sim2real gap。
共分散行列適応進化戦略(Covariance Matrix Adaptation Evolution Strategy)のスコアリング関数としてこれらの測度を用いて、Spotから未知あるいは測定が難しいシミュレーションパラメータを最適化する。
提案手法は,飛行段階を含む複数の歩行が可能な高品質な強化学習ポリシーを生成する。
我々は,5.2ms以上の移動が可能なポリシ,トリプルスポッツのデフォルトコントローラの最大速度,すべり面に対する堅牢性,外乱の拒絶,これまでSpotで見られていなかった全体的なアジリティをデプロイする。
私たちはメソッドを詳述し、低レベルのAPIでSpotの今後の作業をサポートするためにコードをリリースします。
関連論文リスト
- ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks [18.672482188560622]
MS-HABは、低レベルの操作と家庭内オブジェクト再構成のための総合的なベンチマークである。
我々は、現実的な低レベル制御をサポートし、GPUメモリ使用率のごく一部で、事前の魔法の把握実装の3倍の速度を達成する。
論文 参考訳(メタデータ) (2024-12-09T01:29:24Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。