論文の概要: GPO: Growing Policy Optimization for Legged Robot Locomotion and Whole-Body Control
- arxiv url: http://arxiv.org/abs/2601.20668v1
- Date: Wed, 28 Jan 2026 14:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.981608
- Title: GPO: Growing Policy Optimization for Legged Robot Locomotion and Whole-Body Control
- Title(参考訳): GPO:足歩行ロボットロコモーションと全体制御のための政策最適化
- Authors: Shuhao Liao, Peizhuo Li, Xinrong Yang, Linnan Chang, Zhaoxin Fan, Qing Wang, Lei Shi, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti,
- Abstract要約: 脚付きロボットのトレーニング強化学習(RL)ポリシーは、高次元連続動作、ハードウェア制約、限られた探索のために依然として困難である。
成長政策最適化(GPO)は、初期における効果的な行動空間を制限するために、時間変化の作用変換を適用する訓練フレームワークである。
我々は,四足歩行ロボットと六足歩行ロボットの両方でGPOを評価し,ハードウェア上でのシミュレーション学習ポリシーのゼロショット展開を含む。
- 参考スコア(独自算出の注目度): 20.055658070161183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training reinforcement learning (RL) policies for legged robots remains challenging due to high-dimensional continuous actions, hardware constraints, and limited exploration. Existing methods for locomotion and whole-body control work well for position-based control with environment-specific heuristics (e.g., reward shaping, curriculum design, and manual initialization), but are less effective for torque-based control, where sufficiently exploring the action space and obtaining informative gradient signals for training is significantly more difficult. We introduce Growing Policy Optimization (GPO), a training framework that applies a time-varying action transformation to restrict the effective action space in the early stage, thereby encouraging more effective data collection and policy learning, and then progressively expands it to enhance exploration and achieve higher expected return. We prove that this transformation preserves the PPO update rule and introduces only bounded, vanishing gradient distortion, thereby ensuring stable training. We evaluate GPO on both quadruped and hexapod robots, including zero-shot deployment of simulation-trained policies on hardware. Policies trained with GPO consistently achieve better performance. These results suggest that GPO provides a general, environment-agnostic optimization framework for learning legged locomotion.
- Abstract(参考訳): 脚付きロボットのトレーニング強化学習(RL)ポリシーは、高次元連続動作、ハードウェア制約、限られた探索のために依然として困難である。
移動と全身制御の既存の方法は、環境固有のヒューリスティックな位置制御(例えば、報酬形成、カリキュラム設計、手動初期化)に適しているが、トルクベースの制御では効果が低く、アクション空間を十分に探索し、トレーニングのための情報的勾配信号を得るのが困難である。
成長政策最適化(GPO)は,早期に有効な行動空間を制限し,より効果的なデータ収集と政策学習を促進するために,時間変化による行動変容を適用した学習フレームワークである。
我々は,この変換がPPO更新規則を保ち,勾配歪みのみを排除し,安定したトレーニングを実現することを証明した。
我々は,四足歩行ロボットと六足歩行ロボットの両方でGPOを評価し,ハードウェア上でのシミュレーション学習ポリシーのゼロショット展開を含む。
GPOでトレーニングされたポリシーは、常により良いパフォーマンスを実現します。
これらの結果から,GPOは歩行学習のための環境に依存しない汎用的な最適化フレームワークを提供すると考えられる。
関連論文リスト
- Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Extending Group Relative Policy Optimization to Continuous Control: A Theoretical Framework for Robotic Reinforcement Learning [0.0]
グループ相対政策最適化(GRPO)は、グループベースの優位性推定を通じて値関数依存を排除し、離散的な行動空間において有望であることを示す。
本稿では,GRPOを連続制御環境に拡張し,高次元行動空間における課題,スパース報酬,時間的ダイナミクスに対処する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-25T05:25:40Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。