論文の概要: Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
- arxiv url: http://arxiv.org/abs/2410.11825v1
- Date: Tue, 15 Oct 2024 17:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:19.574594
- Title: Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
- Title(参考訳): リプシッツ制約政策によるスムーズなヒューマノイド移動の学習
- Authors: Zixuan Chen, Xialin He, Yen-Jen Wang, Qiayuan Liao, Yanjie Ze, Zhongyu Li, S. Shankar Sastry, Jiajun Wu, Koushil Sreenath, Saurabh Gupta, Xue Bin Peng,
- Abstract要約: Lipschitz-Constrained Policies (LCP) は、リプシッツの制約を学習ポリシーに課す方法である。
LCPは報酬や低域通過フィルタのスムース化の必要性を効果的に置き換えている。
シミュレーションと実世界のヒューマノイドロボットでLCPを評価し,スムーズでロバストなロコモーションコントローラを開発した。
- 参考スコア(独自算出の注目度): 37.124201522993076
- License:
- Abstract: Reinforcement learning combined with sim-to-real transfer offers a general framework for developing locomotion controllers for legged robots. To facilitate successful deployment in the real world, smoothing techniques, such as low-pass filters and smoothness rewards, are often employed to develop policies with smooth behaviors. However, because these techniques are non-differentiable and usually require tedious tuning of a large set of hyperparameters, they tend to require extensive manual tuning for each robotic platform. To address this challenge and establish a general technique for enforcing smooth behaviors, we propose a simple and effective method that imposes a Lipschitz constraint on a learned policy, which we refer to as Lipschitz-Constrained Policies (LCP). We show that the Lipschitz constraint can be implemented in the form of a gradient penalty, which provides a differentiable objective that can be easily incorporated with automatic differentiation frameworks. We demonstrate that LCP effectively replaces the need for smoothing rewards or low-pass filters and can be easily integrated into training frameworks for many distinct humanoid robots. We extensively evaluate LCP in both simulation and real-world humanoid robots, producing smooth and robust locomotion controllers. All simulation and deployment code, along with complete checkpoints, is available on our project page: https://lipschitz-constrained-policy.github.io.
- Abstract(参考訳): 強化学習とsim-to-realトランスファーが組み合わさって、脚のあるロボットのための移動制御装置を開発するための一般的なフレームワークを提供する。
低域フィルタやスムーズな報酬といったスムーズな手法は、実世界での展開を成功させるために、スムーズな振る舞いを持つポリシーを開発するためにしばしば用いられる。
しかしながら、これらの技術は非微分可能であり、通常、大量のハイパーパラメーターの面倒なチューニングを必要とするため、各ロボットプラットフォームに対して広範な手動チューニングを必要とする傾向がある。
この課題に対処し、スムーズな行動を実施するための一般的な手法を確立するために、我々は、Lipschitz-Constrained Policies (LCP) と呼ばれる学習ポリシーにLipschitz制約を課すシンプルで効果的な方法を提案する。
リプシッツ制約は勾配ペナルティの形で実装可能であることを示し、自動微分フレームワークに容易に組み込むことができる微分可能な目的を提供する。
我々は、LCPが報酬やローパスフィルタのスムース化の必要性を効果的に置き換え、多くの異なるヒューマノイドロボットのためのトレーニングフレームワークに容易に統合できることを実証した。
シミュレーションと実世界のヒューマノイドロボットの両方においてLCPを広範囲に評価し,スムーズでロバストなロコモーションコントローラを開発した。
シミュレーションとデプロイメントのコードはすべて、完全なチェックポイントとともに、プロジェクトのページで利用可能です。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Differentiable Constrained Imitation Learning for Robot Motion Planning
and Control [0.26999000177990923]
我々は,交通エージェントのシミュレーションだけでなく,ロボットの動作計画と制御を制約するフレームワークを開発した。
モバイルロボットと自動運転アプリケーションに焦点をあてる。
移動ロボットナビゲーションと自動走行のシミュレーション実験は,提案手法の性能を示す証拠となる。
論文 参考訳(メタデータ) (2022-10-21T08:19:45Z) - Using Simulation Optimization to Improve Zero-shot Policy Transfer of
Quadrotors [0.14999444543328289]
実世界データを用いて微調整を行うことなく,シミュレーションで完全に強化学習を施した低レベルの制御ポリシを訓練し,四足歩行ロボットに展開することが可能であることを示す。
私たちのニューラルネットワークベースのポリシーは、オンボードセンサーデータのみを使用し、組み込みドローンハードウェアで完全に動作します。
論文 参考訳(メタデータ) (2022-01-04T22:32:05Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on
Real-World Robots [17.710172337571617]
深層強化学習(RL)エージェントは、トレーニング環境と実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。
本稿では,RLポリシーと従来型の手作りコントローラの強みを組み合わせた,新しい不確実性対応デプロイメント戦略を提案する。
実世界の2つの連続制御タスクにおいて、BCFはスタンドアロンのポリシーとコントローラの両方に優れる有望な結果を示す。
論文 参考訳(メタデータ) (2021-12-10T02:13:01Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Sim2Real Transfer for Reinforcement Learning without Dynamics
Randomization [0.0]
カーデシアン空間における強化学習において,作業空間制御フレームワーク(OSC)を協調的およびカルデシアン的制約下で利用する方法について述べる。
提案手法は,動的ランダム化を伴わずにポリシーを伝達できる一方で,高速かつ調整可能な自由度で学習することができる。
論文 参考訳(メタデータ) (2020-02-19T11:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。