論文の概要: Neuromorphic Reinforcement Learning for Quadruped Locomotion Control on Uneven Terrain
- arxiv url: http://arxiv.org/abs/2605.09595v1
- Date: Sun, 10 May 2026 15:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.325775
- Title: Neuromorphic Reinforcement Learning for Quadruped Locomotion Control on Uneven Terrain
- Title(参考訳): 不均一領域における四足歩行制御のためのニューロモルフィック強化学習
- Authors: Zhuangyu Han, Abhronil Sengupta,
- Abstract要約: ローカルな学習は、グローバルなバックプロパゲーショングラフを、ローカルなニューラルステートによって駆動される更新に置き換えることができる。
本研究は,不均一な四足歩行を実現するための平衡プロパゲーション(EP)に基づく近似ポリシ最適化(PPO)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.828170373014957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has enabled robust quadruped locomotion over complex terrain, but most learned controllers are trained offline with backpropagation in massively parallel simulation and deployed as fixed policies, limiting adaptation to terrain variation, payload changes, actuator wear, and other real-world conditions under onboard power constraints. Local learning provides a potential path toward energy-aware on-robot adaptation by replacing global backpropagation graphs with updates driven by local neural states, making the learning rule more compatible with neuromorphic and in-memory computing substrates. This work proposes an equilibrium-propagation (EP)-based proximal policy optimization (PPO) framework for uneven-terrain quadruped locomotion. The controller combines a bio-inspired central pattern generator (CPG) policy with a residual postural adjustment policy, while replacing conventional backpropagation-trained policy and value networks with EP-enabled local learning. To train stochastic continuous-control policies with EP, we derive an EP-compatible PPO output-nudging signal and introduce a two-sided ratio clipping mechanism that stabilizes policy updates during relaxation. Experiments on a 12-DoF A1 quadruped show that the proposed controller achieves stable policy convergence in a two-stage uneven terrain locomotion task. Its locomotion performance is comparable to a backpropagation-trained PPO baseline in success rate, velocity tracking, actuator power, and body stability, while improving GPU memory efficiency by 4.3\(\times\) compared with backpropagation through time (BPTT). These results suggest that local equilibrium-based learning can support high-dimensional embodied locomotion and provide an algorithmic foundation for low-power on-robot adaptation and fine-tuning.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は複雑な地形上の頑強な四足歩行を可能にするが、ほとんどの学習コントローラは、大規模な並列シミュレーションでバックプロパゲーションによってオフラインで訓練され、固定されたポリシーとして配置され、地形の変化、ペイロードの変化、アクチュエータの摩耗、およびオンボード電力制約下での実際の条件に適応する。
局所学習は、グローバルなバックプロパゲーショングラフを局所的なニューラルステートによって駆動される更新に置き換え、ニューロモルフィックおよびインメモリコンピューティング基板との互換性を高めることで、エネルギーを意識したオンボット適応への潜在的経路を提供する。
本研究は,不均一な四足歩行を実現するための平衡プロパゲーション(EP)に基づくPPOフレームワークを提案する。
このコントローラは, バイオインスパイアされた中央パターン生成(CPG)ポリシーと姿勢調整ポリシを組み合わせ, 従来のバックプロパゲーション訓練ポリシとバリューネットワークをEP対応ローカル学習に置き換える。
EPを用いた確率的連続制御ポリシのトレーニングには,EP互換のPPO出力ニュジング信号が導出され,緩和時のポリシー更新を安定化する2側比クリッピング機構が導入された。
12-DoF A1四足歩行実験により, 提案した制御器は2段不均質な地形移動タスクにおいて安定な政策収束を達成することを示した。
ローコモーション性能は、成功率、速度トラッキング、アクチュエータパワー、ボディ安定性のバックプロパゲーショントレーニングされたPPOベースラインに匹敵する一方で、時間によるバックプロパゲーション(BPTT)と比較してGPUメモリ効率を4.3\(\times\)改善している。
これらの結果から, 局所平衡学習は高次元エンボディロコモーションをサポートし, 低消費電力オンロボット適応と微調整のためのアルゴリズム基盤を提供する可能性が示唆された。
関連論文リスト
- ContractionPPO: Certified Reinforcement Learning via Differentiable Contraction Layers [5.690649768462432]
本稿では,手足ロボットのロバストな計画と制御のためのフレームワークであるContractionPPOを提案する。
収縮PPOは、模擬閉ループ系の指数的安定性を証明する収縮計量を生成する。
四足歩行におけるハードウェア実験により,強い外乱下であっても,ContractionPPOは頑健で安定な制御を可能にすることが示された。
論文 参考訳(メタデータ) (2026-03-20T04:32:18Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - QuadKAN: KAN-Enhanced Quadruped Motion Control via End-to-End Reinforcement Learning [2.26464274357758]
我々は、強化学習(RL)による視覚誘導四足歩行制御に対処する。
Kolmogorov-Arnold Networks (KAN) でインスタンス化されたクロスモーダルポリシーである QuadKAN を提案する。
以上の結果から,QuadKANは最新技術(SOTA)ベースラインよりも一貫して高いリターン,より大きな距離,衝突の少ないことが分かる。
論文 参考訳(メタデータ) (2025-08-26T16:05:32Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion [1.479858319622657]
四足歩行ロボットは、様々な地形にまたがる荷積み作業にますます利用されている。
本研究では,四足歩行ロボットが様々なペイロードと多様な地形に適応できる適応強化学習フレームワークを提案する。
提案手法はIsaac Gymの大規模シミュレーション実験と,Unitree Go1の4倍体上での実際のハードウェア展開により検証する。
論文 参考訳(メタデータ) (2025-05-01T12:41:35Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。