論文の概要: Learning to Walk with Less: a Dyna-Style Approach to Quadrupedal Locomotion
- arxiv url: http://arxiv.org/abs/2509.06296v1
- Date: Mon, 08 Sep 2025 02:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.947143
- Title: Learning to Walk with Less: a Dyna-Style Approach to Quadrupedal Locomotion
- Title(参考訳): 歩行の学習 : 四足歩行に対するダイナスタイルアプローチ
- Authors: Francisco Affonso, Felipe Andrade G. Tommaselli, Juliano Negri, Vivian S. Medeiros, Mateus V. Gasparino, Girish Chowdhary, Marcelo Becker,
- Abstract要約: 四足歩行の標本効率を向上させるモデルに基づく強化学習フレームワークを提案する。
この方針に沿って訓練された予測モデルは、徐々に統合される短水平合成遷移を生成する。
この改善は、広範囲の移動コマンドを追跡する能力に移行できることを実証する。
- 参考スコア(独自算出の注目度): 6.667478384585131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional RL-based locomotion controllers often suffer from low data efficiency, requiring extensive interaction to achieve robust performance. We present a model-based reinforcement learning (MBRL) framework that improves sample efficiency for quadrupedal locomotion by appending synthetic data to the end of standard rollouts in PPO-based controllers, following the Dyna-Style paradigm. A predictive model, trained alongside the policy, generates short-horizon synthetic transitions that are gradually integrated using a scheduling strategy based on the policy update iterations. Through an ablation study, we identified a strong correlation between sample efficiency and rollout length, which guided the design of our experiments. We validated our approach in simulation on the Unitree Go1 robot and showed that replacing part of the simulated steps with synthetic ones not only mimics extended rollouts but also improves policy return and reduces variance. Finally, we demonstrate that this improvement transfers to the ability to track a wide range of locomotion commands using fewer simulated steps.
- Abstract(参考訳): 従来のRLベースのロコモーションコントローラは、しばしばデータ効率の低下に悩まされ、ロバストな性能を達成するために広範囲なインタラクションを必要とする。
モデルベース強化学習(MBRL)フレームワークを提案する。Dyna-Styleパラダイムに従って,PPOベースのコントローラにおける標準ロールアウトの終了に合成データを付加することにより,四足歩行のサンプル効率を向上させる。
ポリシーと共に訓練された予測モデルは、ポリシー更新イテレーションに基づいたスケジューリング戦略を用いて徐々に統合される短水平合成遷移を生成する。
アブレーション実験により, 試料の効率とロールアウト長との間に強い相関関係が認められ, 実験の設計を導いた。
我々は,Unitree Go1ロボットのシミュレーションにおけるアプローチを検証し,シミュレーションされたステップの一部を,拡張ロールアウトを模倣するだけでなく,ポリシリターンを改善し,分散を低減することを示した。
最後に、この改良により、より少ないシミュレートステップを用いて、広範囲の移動コマンドを追跡する能力に移行できることを実証する。
関連論文リスト
- Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - First Order Model-Based RL through Decoupled Backpropagation [10.963895023346879]
勾配計算から軌道生成を分離する手法を提案する。
本手法は,SHACなどの特殊な移動のサンプル効率と速度を実現する。
我々は、ベンチマーク制御タスクにおける勾配アルゴリズムを実証的に検証し、実際のGo2四足歩行ロボット上での有効性を実証する。
論文 参考訳(メタデータ) (2025-08-29T19:55:25Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。
モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文 参考訳(メタデータ) (2023-06-12T13:10:14Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Learning to Exploit Elastic Actuators for Quadruped Locomotion [7.9585932082270014]
足の移動におけるスプリングベースのアクチュエータは、エネルギー効率と性能の向上を提供するが、コントローラ設計の難しさは増す。
実ロボットでモデルフリーのコントローラを直接学習することを提案する。
提案手法をDLR弾性四重項ベルトに適用した。
論文 参考訳(メタデータ) (2022-09-15T09:43:17Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。