論文の概要: Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2504.08246v1
- Date: Fri, 11 Apr 2025 04:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:30.226847
- Title: Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion
- Title(参考訳): リプシッツ制約によるヒューマノイドロコモーション学習のためのスペクトル正規化
- Authors: Jaeyong Shin, Woohyun Cha, Donghyeon Kim, Junhyeok Cha, Jaeheung Park,
- Abstract要約: この研究は、リプシッツ連続性を強制する効率的な代替としてスペクトル正規化(SN)を提案する。
SNは、GPUメモリ使用量を大幅に削減しながら、高周波ポリシーの変動を効果的に制限する。
シミュレーションと実世界のヒューマノイドロボットを用いた実験により,SNは勾配ペナルティ法に匹敵する性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 12.790605143952996
- License:
- Abstract: Reinforcement learning (RL) has shown great potential in training agile and adaptable controllers for legged robots, enabling them to learn complex locomotion behaviors directly from experience. However, policies trained in simulation often fail to transfer to real-world robots due to unrealistic assumptions such as infinite actuator bandwidth and the absence of torque limits. These conditions allow policies to rely on abrupt, high-frequency torque changes, which are infeasible for real actuators with finite bandwidth. Traditional methods address this issue by penalizing aggressive motions through regularization rewards, such as joint velocities, accelerations, and energy consumption, but they require extensive hyperparameter tuning. Alternatively, Lipschitz-Constrained Policies (LCP) enforce finite bandwidth action control by penalizing policy gradients, but their reliance on gradient calculations introduces significant GPU memory overhead. To overcome this limitation, this work proposes Spectral Normalization (SN) as an efficient replacement for enforcing Lipschitz continuity. By constraining the spectral norm of network weights, SN effectively limits high-frequency policy fluctuations while significantly reducing GPU memory usage. Experimental evaluations in both simulation and real-world humanoid robot show that SN achieves performance comparable to gradient penalty methods while enabling more efficient parallel training.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、足のロボットのためのアジャイルと適応可能なコントローラーのトレーニングにおいて大きな可能性を示し、経験から複雑な移動行動を直接学べるようにしている。
しかしながら、シミュレーションで訓練されたポリシーは、無限のアクチュエータの帯域幅やトルク制限の欠如といった非現実的な仮定のために、現実のロボットへの転送に失敗することが多い。
これらの条件により、ポリシーは急激で高周波のトルク変化に依存することができ、これは有限帯域を持つ実アクチュエータでは不可能である。
従来の方法では、関節速度、加速度、エネルギー消費などの正則化報酬を通じて攻撃的な動きを罰することでこの問題に対処するが、それらは広範囲なハイパーパラメータチューニングを必要とする。
あるいは、Lipschitz-Constrained Policies (LCP) はポリシー勾配をペナライズすることで有限帯域幅の動作制御を強制するが、勾配計算への依存はGPUメモリのオーバーヘッドを大きく引き起こす。
この制限を克服するために、この研究はリプシッツ連続性を強制する効率的な代替としてスペクトル正規化(SN)を提案する。
ネットワーク重みのスペクトル規範を制約することにより、SNはGPUメモリ使用量を大幅に削減しつつ、高周波ポリシーの変動を効果的に制限する。
シミュレーションと実世界のヒューマノイドロボットを用いた実験により、SNはより効率的な並列トレーニングを実現するとともに、勾配ペナルティ法に匹敵する性能を達成することが示された。
関連論文リスト
- Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies [37.124201522993076]
Lipschitz-Constrained Policies (LCP) は、リプシッツの制約を学習ポリシーに課す方法である。
LCPは報酬や低域通過フィルタのスムース化の必要性を効果的に置き換えている。
シミュレーションと実世界のヒューマノイドロボットでLCPを評価し,スムーズでロバストなロコモーションコントローラを開発した。
論文 参考訳(メタデータ) (2024-10-15T17:52:20Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。
我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文 参考訳(メタデータ) (2024-02-22T20:49:04Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。