論文の概要: Learning to Recover: Dynamic Reward Shaping with Wheel-Leg Coordination for Fallen Robots
- arxiv url: http://arxiv.org/abs/2506.05516v1
- Date: Thu, 05 Jun 2025 18:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.202737
- Title: Learning to Recover: Dynamic Reward Shaping with Wheel-Leg Coordination for Fallen Robots
- Title(参考訳): 転倒するロボットのための車輪脚座標を用いたダイナミックリワード整形
- Authors: Boyuan Deng, Luca Rossini, Jin Wang, Weijie Wang, Nikolaos Tsagarakis,
- Abstract要約: 本稿では,エピソードベースの動的リワードシェーピングとカリキュラム学習を統合した学習フレームワークを提案する。
相乗的ホイールレッグ調整は関節トルクの消費を15.8%、26.2%減少させることを示した。
- 参考スコア(独自算出の注目度): 5.308593176016186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive recovery from fall incidents are essential skills for the practical deployment of wheeled-legged robots, which uniquely combine the agility of legs with the speed of wheels for rapid recovery. However, traditional methods relying on preplanned recovery motions, simplified dynamics or sparse rewards often fail to produce robust recovery policies. This paper presents a learning-based framework integrating Episode-based Dynamic Reward Shaping and curriculum learning, which dynamically balances exploration of diverse recovery maneuvers with precise posture refinement. An asymmetric actor-critic architecture accelerates training by leveraging privileged information in simulation, while noise-injected observations enhance robustness against uncertainties. We further demonstrate that synergistic wheel-leg coordination reduces joint torque consumption by 15.8% and 26.2% and improves stabilization through energy transfer mechanisms. Extensive evaluations on two distinct quadruped platforms achieve recovery success rates up to 99.1% and 97.8% without platform-specific tuning. The supplementary material is available at https://boyuandeng.github.io/L2R-WheelLegCoordination/
- Abstract(参考訳): 転倒事故からの適応的回復は、車輪付き脚ロボットの実用的展開に欠かせないスキルである。
しかし、従来の手法では、事前に計画されたリカバリ動作、単純化されたダイナミクス、スパース報酬を頼りにしており、堅牢なリカバリポリシーを作成できないことが多い。
本稿では,エピソードをベースとしたダイナミックリワードシェーピングとカリキュラム学習を統合した学習フレームワークを提案する。
非対称アクター・クリティカルなアーキテクチャは、シミュレーションにおいて特権情報を活用することでトレーニングを加速し、ノイズ注入された観測は不確実性に対する堅牢性を高める。
さらに、相乗的ホイールレッグ調整は、関節トルクの消費を15.8%、26.2%減少させ、エネルギー伝達機構による安定化を改善することを実証した。
2つの異なる4つのプラットフォームに対する大規模な評価は、プラットフォーム固有のチューニングなしで、リカバリ成功率を99.1%と97.8%に向上させる。
補足資料はhttps://boyuandeng.github.io/L2R-WheelLegCoordination/にある。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:48:35Z) - Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning [54.26816599309778]
動的バランスと強化学習(RL)に基づく新しい全身移動アルゴリズムを提案する。
具体的には,ZMP(Zero-Moment Point)駆動の報酬とタスク駆動の報酬を,全身のアクター批判的枠組みで拡張した尺度を活用することで,動的バランス機構を導入する。
フルサイズのUnitree H1-2ロボットによる実験により、非常に狭い地形でのバランスを維持するための手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-02-24T14:53:45Z) - Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。