論文の概要: TransCurriculum: Multi-Dimensional Curriculum Learning for Fast & Stable Locomotion
- arxiv url: http://arxiv.org/abs/2603.14156v1
- Date: Sat, 14 Mar 2026 23:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.814204
- Title: TransCurriculum: Multi-Dimensional Curriculum Learning for Fast & Stable Locomotion
- Title(参考訳): TransCurriculum: 高速かつ安定なロコモーションのための多次元カリキュラム学習
- Authors: Prakhar Mishra, Amir Hossain Raj, Xuesu Xiao, Dinesh Manocha,
- Abstract要約: TransCurriculumは、アジャイル四足歩行のためのトランスフォーマーベースの多次元カリキュラム学習アプローチである。
シミュレーションでは,Unitree Go1ロボットに対するアプローチを検証し,Go1ハードウェア上でゼロショットでデプロイする。
- 参考スコア(独自算出の注目度): 50.54752207285298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-speed legged locomotion struggles with stability and transfer losses at higher command velocities during deployment. One reason is that most curricula vary difficulty along single axis, for example increase the range of command velocities, terrain difficulty, or domain parameters (e.g. friction or payload mass) using either fixed update rule or instantaneous rewards while ignoring how the history of robot training has evolved. We propose TransCurriculum, a transformer-based multi-dimensional curriculum learning approach for agile quadrupedal locomotion. TransCurriculum adapts to 3 axes, velocity command targets, terrain difficulty, and domain randomization parameters (friction and payload mass). Rather than feeding task reward history directly into the low-level control policy, our formulation exploits it at the curriculum level. A transformer-based teacher retrieves the sequence of rewards and uses it to predict future rewards, success rate, and learning progress to guide expansion of this multidimensional curriculum towards high performing task bins. Finally we validate our approach on the Unitree Go1 robot in simulation (Isaac Gym) and deploy it zero-shot on Go1 hardware. Our TransCurriculum policy achieves a maximum velocity of 6.3 m/s in simulation and outperforms prior curriculum baselines. We tested our TransCurriculum trained policy on terrains (carpets, slopes, tiles, concrete), achieving a forward velocity of 4.1 m/s on carpet surpassing the fastest curriculum methods by 18.8% and achieves maximum zero-shot value among all tested methods. Our multi-dimensional curriculum also reduces the transfer loss to 18% from 27% for command only curriculum, demonstrating the benefits of joint training over velocity, terrain and domain randomization dimension while keeping the task success rate of 80-90% on rigid indoor and outdoor surfaces.
- Abstract(参考訳): 高速脚移動は、展開中に高い指令速度で安定性と移動損失に悩まされる。
例えば、ロボットのトレーニングの歴史を無視しながら、固定された更新ルールまたは即時報酬を用いて、コマンド速度、地形難易度、ドメインパラメータ(例えば、摩擦やペイロードの質量)を増大させることなどである。
本研究では,トランスキュリキュラム(TransCurriculum)を提案する。
TransCurriculumは3軸、速度指令目標、地形難易度、領域ランダム化パラメータ(フリクションとペイロードマス)に適応する。
低レベルの制御方針に直接タスク報酬履歴を供給するのではなく,カリキュラムレベルで活用する。
トランスフォーマーベースの教師は、報酬のシーケンスを取得し、それを将来の報酬、成功率、学習進捗を予測するために使用し、この多次元カリキュラムの高機能タスクビンへの拡張を誘導する。
最後に、シミュレーション(Isaac Gym)におけるUnitree Go1ロボットのアプローチを検証するとともに、Go1ハードウェア上でゼロショットでデプロイする。
我々のTransCurriculumポリシーは,シミュレーションにおいて最大速度6.3m/sを実現し,これまでのカリキュラムベースラインを上回ります。
カーペット上で4.1m/sの前方速度を18.8%の速度で達成し,全試験方法で最大ゼロショット値を達成した。
また,複数次元のカリキュラムでは,コマンドのみのカリキュラムの27%から18%の転送損失を減らし,作業成功率80~90%を屋内および屋外の剛体面に維持しながら,速度,地形,領域ランダム化次元に対する共同トレーニングの利点を実証した。
関連論文リスト
- Learning Terrain-Specialized Policies for Adaptive Locomotion in Challenging Environments [0.4588028371034407]
この研究は、地形に特化されたポリシーとカリキュラムの学習を活用して、複雑な環境での俊敏性を高め、パフォーマンスを追跡する階層的な強化学習フレームワークを導入する。
本研究では,本手法をシミュレーションで検証し,本手法は成功率を最大16%向上させ,速度目標の増大とともに追従誤差の低減を図る。
論文 参考訳(メタデータ) (2025-09-25T00:17:39Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Advanced Skills by Learning Locomotion and Local Navigation End-to-End [10.872193480485596]
本研究は, 深層強化学習によるエンドツーエンド政策の訓練により, 完全な問題を解決することを提案する。
実際の四足歩行ロボットにおけるポリシーの展開を実演する。
論文 参考訳(メタデータ) (2022-09-26T16:35:00Z) - Rapid Locomotion via Reinforcement Learning [15.373208553045416]
我々はMIT Mini Cheetahで記録的な俊敏性を実現するエンドツーエンドの学習コントローラを提案する。
このシステムは、草、氷、砂利などの自然の地形で速く動き、乱れに強く反応する。
論文 参考訳(メタデータ) (2022-05-05T17:55:11Z) - Real Robot Challenge using Deep Reinforcement Learning [6.332038240397164]
本稿では,2021年リアルロボットチャレンジの第1フェーズの優勝を詳述する。
課題は、3本指のロボットが特定の目標軌道に沿って立方体を運ばなければならないことだ。
我々は、ロボットシステムの知識を最小限にする必要のある、純粋な強化学習アプローチを使用している。
論文 参考訳(メタデータ) (2021-09-30T16:12:17Z) - Robust High-speed Running for Quadruped Robots via Deep Reinforcement
Learning [7.264355680723856]
そこで,本稿では,環境障害にともなうできるだけ速く走行するタスクのために,カルタゴ空間における足場位置の学習について検討する。
他のアクション空間と比較して、より少ない報酬形成、より優れたサンプル効率、ギャロッピングやバウンディングなどの自然歩行の出現を観察する。
公称4倍の質量の100%以上の負荷で荒れた地形の上を走るという困難なタスクであっても、政策はわずか数百万の時間ステップで学ぶことができます。
論文 参考訳(メタデータ) (2021-03-11T06:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。