論文の概要: One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2505.18780v1
- Date: Sat, 24 May 2025 16:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.658166
- Title: One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion
- Title(参考訳): 自由なヒューマノイドロコモーションのためのスケーラブル統一政策 : 一つの政策と多くの世界
- Authors: Yahao Fan, Tianxiang Gui, Kaiyang Ji, Shutong Ding, Chixuan Zhang, Jiayuan Gu, Jingyi Yu, Jingya Wang, Ye Shi,
- Abstract要約: 多様な地形をマスターする単一ポリシーを実現する統一的な枠組みを提案する。
オフラインデータ、拡散ベースの軌道、およびポリシー最適化を統合することで、DreamPolicyは"1つのタスク、1つのポリシー"ボトルネックを克服する。
- 参考スコア(独自算出の注目度): 31.509149084648797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid locomotion faces a critical scalability challenge: traditional reinforcement learning (RL) methods require task-specific rewards and struggle to leverage growing datasets, even as more training terrains are introduced. We propose DreamPolicy, a unified framework that enables a single policy to master diverse terrains and generalize zero-shot to unseen scenarios by systematically integrating offline data and diffusion-driven motion synthesis. At its core, DreamPolicy introduces Humanoid Motion Imagery (HMI) - future state predictions synthesized through an autoregressive terrain-aware diffusion planner curated by aggregating rollouts from specialized policies across various distinct terrains. Unlike human motion datasets requiring laborious retargeting, our data directly captures humanoid kinematics, enabling the diffusion planner to synthesize "dreamed" trajectories that encode terrain-specific physical constraints. These trajectories act as dynamic objectives for our HMI-conditioned policy, bypassing manual reward engineering and enabling cross-terrain generalization. DreamPolicy addresses the scalability limitations of prior methods: while traditional RL fails to exploit growing datasets, our framework scales seamlessly with more offline data. As the dataset expands, the diffusion prior learns richer locomotion skills, which the policy leverages to master new terrains without retraining. Experiments demonstrate that DreamPolicy achieves average 90% success rates in training environments and an average of 20% higher success on unseen terrains than the prevalent method. It also generalizes to perturbed and composite scenarios where prior approaches collapse. By unifying offline data, diffusion-based trajectory synthesis, and policy optimization, DreamPolicy overcomes the "one task, one policy" bottleneck, establishing a paradigm for scalable, data-driven humanoid control.
- Abstract(参考訳): 従来の強化学習(RL)手法では、より多くのトレーニング環境が導入されたとしても、タスク固有の報酬を必要とし、成長するデータセットを活用するのに苦労する。
オフラインデータと拡散駆動モーション合成を体系的に統合することで,多様な地形を習得し,ゼロショットを未知のシナリオに一般化する,統一的なフレームワークであるDreamPolicyを提案する。
中心となるDreamPolicy氏は、Humanoid Motion Imagery (HMI)を紹介している。
人間の運動データセットと異なり、我々のデータは人型キネマティクスを直接キャプチャし、拡散プランナーは地形固有の物理的制約を符号化する「危険な」軌道を合成できる。
これらの軌道は、我々のHMI条件付き政策の動的目的として機能し、手動報酬工学をバイパスし、地球横断の一般化を可能にする。
DreamPolicyは、以前のメソッドのスケーラビリティの制限に対処する。従来のRLは成長するデータセットを活用できないが、我々のフレームワークはよりオフラインのデータでシームレスにスケールする。
データセットが拡大するにつれて、拡散前の拡散はよりリッチな移動スキルを学ぶ。
実験では、DreamPolicyはトレーニング環境で平均90%の成功率を獲得し、未確認の地形では一般的な方法よりも平均20%高い成功率を達成した。
また、以前のアプローチが崩壊する混乱した複合シナリオにも一般化される。
オフラインデータの統合、拡散ベースの軌道合成、ポリシー最適化により、DreamPolicyは"1つのタスク、1つのポリシー"のボトルネックを克服し、スケーラブルでデータ駆動型ヒューマノイド制御のパラダイムを確立する。
関連論文リスト
- Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Policy-Guided Diffusion [30.4597043728046]
多くの現実世界の設定では、エージェントは以前の行動ポリシーによって収集されたオフラインデータセットから学ぶ必要がある。
本稿では,自己回帰的オフライン世界モデルに代わる政策誘導拡散法を提案する。
本研究では,政策誘導拡散モデルが目標分布の正規化形態をモデル化し,目標と行動の両ポリシの下で行動可能性のバランスをとることを示す。
論文 参考訳(メタデータ) (2024-04-09T14:46:48Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。