論文の概要: Reduced-Order Model-Guided Reinforcement Learning for Demonstration-Free Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2509.19023v1
- Date: Tue, 23 Sep 2025 13:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.875877
- Title: Reduced-Order Model-Guided Reinforcement Learning for Demonstration-Free Humanoid Locomotion
- Title(参考訳): デモストレーションフリーなヒューマノイドロコモーションのための低次モデル誘導強化学習
- Authors: Shuai Liu, Meng Cheng Lau,
- Abstract要約: Reduced-Order Model-Guided Reinforcement Learning (ROM-GRL) はヒューマノイド歩行のための強化学習フレームワークである。
ROM-GRLは、純粋な逆ベースラインよりも追従誤差がかなり低い安定な対称歩行を生成する。
- 参考スコア(独自算出の注目度): 2.9188254453273257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Reduced-Order Model-Guided Reinforcement Learning (ROM-GRL), a two-stage reinforcement learning framework for humanoid walking that requires no motion capture data or elaborate reward shaping. In the first stage, a compact 4-DOF (four-degree-of-freedom) reduced-order model (ROM) is trained via Proximal Policy Optimization. This generates energy-efficient gait templates. In the second stage, those dynamically consistent trajectories guide a full-body policy trained with Soft Actor--Critic augmented by an adversarial discriminator, ensuring the student's five-dimensional gait feature distribution matches the ROM's demonstrations. Experiments at 1 meter-per-second and 4 meter-per-second show that ROM-GRL produces stable, symmetric gaits with substantially lower tracking error than a pure-reward baseline. By distilling lightweight ROM guidance into high-dimensional policies, ROM-GRL bridges the gap between reward-only and imitation-based locomotion methods, enabling versatile, naturalistic humanoid behaviors without any human demonstrations.
- Abstract(参考訳): そこで我々は,人型歩行のための2段階強化学習フレームワークROM-GRLを導入する。
第一段階では、コンパクトな 4-DOF (4-of-freedom) リダクションオーダーモデル (ROM) がプロキシ・ポリシー・オプティマイゼーションによって訓練される。
これによりエネルギー効率の良い歩行テンプレートが生成される。
第2段階では、動的に一貫した軌跡がソフト・アクター・クライトで訓練されたフルボディ・ポリシーを相手の判別器で誘導し、学生の5次元歩行特徴分布がROMのデモと一致することを保証する。
1m/秒と4m/秒の実験では、ROM-GRLは純粋な逆ベースラインよりもかなり低い追尾誤差で安定で対称な歩数を生成することが示された。
ROM-GRLは、軽量なROMガイダンスを高次元ポリシーに蒸留することにより、報酬のみと模倣に基づくロコモーション法の間のギャップを埋め、人間の実演なしに汎用的で自然主義的なヒューマノイドな動作を可能にする。
関連論文リスト
- Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision [2.3548641190233264]
自己拡張型ロボット軌道(Self-Augmented Robot Trajectory, SART)は、一つの人間のデモンストレーションからポリシー学習を可能にするフレームワークである。
SARTは、人間による実証にのみ訓練されたポリシーよりも、はるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2025-09-11T23:10:56Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Impedance Matching: Enabling an RL-Based Running Jump in a Quadruped Robot [7.516046071926082]
シミュレーションロボットと現実ロボットのギャップを軽減するための新しい枠組みを提案する。
本フレームワークはパラメータ選択のための構造化ガイドラインとシミュレーションにおける動的ランダム化の範囲を提供する。
結果は、我々の知る限り、実四足歩行ロボットにおいて、RLベースの制御ポリシーによって実証された最も高く、最も長いジャンプの1つです。
論文 参考訳(メタデータ) (2024-04-23T14:52:09Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Preference-Based Learning for User-Guided HZD Gait Generation on Bipedal
Walking Robots [31.994815173888806]
本稿では,制御理論と機械学習を併用して,安定かつ頑健な二足歩行を実現する枠組みを提案する。
その結果、このフレームワークは、シミュレーション環境に依存することなく、50回未満のイテレーションで安定で、堅牢で、効率的で、そして、自然な歩行を実現することがわかった。
論文 参考訳(メタデータ) (2020-11-10T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。