論文の概要: HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation
- arxiv url: http://arxiv.org/abs/2602.04412v1
- Date: Wed, 04 Feb 2026 10:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.484778
- Title: HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation
- Title(参考訳): HoRD: 履歴記述型強化学習とオンライン蒸留によるロバストヒューマノイド制御
- Authors: Puyue Wang, Jiawei Hu, Yan Gao, Junyan Wang, Yu Zhang, Gillian Dobbie, Tao Gu, Wafa Johal, Ting Dang, Hong Jia,
- Abstract要約: ヒューマノイドロボットは、力学、タスク仕様、環境設定の小さな変更の下で、大幅なパフォーマンス低下を被る可能性がある。
ドメインシフト下での堅牢なヒューマノイド制御のための2段階学習フレームワークHoRDを提案する。
- 参考スコア(独自算出の注目度): 21.04499976665078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humanoid robots can suffer significant performance drops under small changes in dynamics, task specifications, or environment setup. We propose HoRD, a two-stage learning framework for robust humanoid control under domain shift. First, we train a high-performance teacher policy via history-conditioned reinforcement learning, where the policy infers latent dynamics context from recent state--action trajectories to adapt online to diverse randomized dynamics. Second, we perform online distillation to transfer the teacher's robust control capabilities into a transformer-based student policy that operates on sparse root-relative 3D joint keypoint trajectories. By combining history-conditioned adaptation with online distillation, HoRD enables a single policy to adapt zero-shot to unseen domains without per-domain retraining. Extensive experiments show HoRD outperforms strong baselines in robustness and transfer, especially under unseen domains and external perturbations. Code and project page are available at \href{https://tonywang-0517.github.io/hord/}{https://tonywang-0517.github.io/hord/}.
- Abstract(参考訳): ヒューマノイドロボットは、力学、タスク仕様、環境設定の小さな変更の下で、大幅なパフォーマンス低下を被る可能性がある。
ドメインシフト下での堅牢なヒューマノイド制御のための2段階学習フレームワークHoRDを提案する。
まず、歴史条件付き強化学習を通じて高性能な教員政策を訓練し、近年の国家行動軌跡から潜時力学の文脈を推定し、多様なランダム化力学にオンラインで適応する。
第2に,教師の頑健な制御能力を,疎根性3Dジョイントキーポイントトラジェクトリで動作するトランスフォーマーベースの学生ポリシーに伝達するオンライン蒸留を行う。
履歴条件付き適応とオンライン蒸留を組み合わせることで、HoRDはドメイン単位の再訓練なしにゼロショットを未確認領域に適応させる単一のポリシーを可能にする。
大規模な実験により、HoRDは強靭性や伝達において、特に目に見えない領域や外部の摂動下で、強いベースラインを上回ります。
コードとプロジェクトページは \href{https://tonywang-0517.github.io/hord/}{https://tonywang-0517.github.io/hord/} で公開されている。
関連論文リスト
- Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts [68.18666621908898]
単一ドメインのオフライン強化学習(RL)は、しばしば限られたデータカバレッジに悩まされる。
ドメイン間のオフラインRLは、動的シフトを伴う他のドメインからの追加データを活用することでこの問題に対処する。
本稿では、クロスドメインオフラインRLにおける動的シフトに対する二重(列車時間とテスト時間の両方)ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-12-02T07:20:39Z) - Teacher Motion Priors: Enhancing Robot Locomotion over Challenging Terrain [6.7297018009524]
本稿では,教師の学生パラダイムに基づく教師事前の枠組みを紹介する。
模倣と補助的なタスク学習を統合し、学習効率と一般化を改善する。
このフレームワークはヒューマノイドロボット上で検証され、動的地形における移動安定性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-14T16:36:56Z) - ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Robust Deep Reinforcement Learning for Quadcopter Control [0.8687092759073857]
本研究では、ロバスト・マルコフ決定プロセス(RMDP)を用いてドローン制御ポリシーを訓練する。
それは、ある環境から別の環境への政策移行の間の潜在的なギャップを扱うための悲観的な最適化を選択する。
訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。
論文 参考訳(メタデータ) (2021-11-06T16:35:13Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。