論文の概要: WPT: World-to-Policy Transfer via Online World Model Distillation
- arxiv url: http://arxiv.org/abs/2511.20095v1
- Date: Tue, 25 Nov 2025 09:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.374091
- Title: WPT: World-to-Policy Transfer via Online World Model Distillation
- Title(参考訳): WPT:オンラインワールドモデル蒸留によるワールド・ツー・ポリティクス
- Authors: Guangfeng Jiang, Yueru Luo, Jun Liu, Yi Huang, Yiyao Zhu, Zhan Qu, Dave Zhenyu Chen, Bingbing Liu, Xu Yan,
- Abstract要約: WPT(World-to-Policy Transfer)トレーニングパラダイムを導入し,エンド・ツー・エンドの世界モデルの指導の下でオンライン蒸留を可能にする。
我々は,世界モデルによって予測される将来の力学と候補軌道を整合させることにより,世界知識を教師の方針に注入する訓練可能な報酬モデルを開発する。
- 参考スコア(独自算出の注目度): 31.152474023826354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed remarkable progress in world models, which primarily aim to capture the spatio-temporal correlations between an agent's actions and the evolving environment. However, existing approaches often suffer from tight runtime coupling or depend on offline reward signals, resulting in substantial inference overhead or hindering end-to-end optimization. To overcome these limitations, we introduce WPT, a World-to-Policy Transfer training paradigm that enables online distillation under the guidance of an end-to-end world model. Specifically, we develop a trainable reward model that infuses world knowledge into a teacher policy by aligning candidate trajectories with the future dynamics predicted by the world model. Subsequently, we propose policy distillation and world reward distillation to transfer the teacher's reasoning ability into a lightweight student policy, enhancing planning performance while preserving real-time deployability. Extensive experiments on both open-loop and closed-loop benchmarks show that our WPT achieves state-of-the-art performance with a simple policy architecture: it attains a 0.11 collision rate (open-loop) and achieves a 79.23 driving score (closed-loop) surpassing both world-model-based and imitation-learning methods in accuracy and safety. Moreover, the student sustains up to 4.9x faster inference, while retaining most of the gains.
- Abstract(参考訳): 近年、エージェントの行動と進化する環境の間の時空間的相関を捉えることを主な目的とする世界モデルの顕著な進歩が観察されている。
しかし、既存のアプローチは、しばしばランタイムの密結合に悩まされるか、オフラインの報酬信号に依存しているため、推論のオーバーヘッドが大きくなり、エンドツーエンドの最適化が妨げられる。
これらの制約を克服するために,エンド・ツー・エンドの世界モデルの指導の下でオンライン蒸留を可能にするワールド・ツー・ポリシー・トランスファー・トレーニングパラダイムであるWPTを導入する。
具体的には,教師の方針に世界知識を注入する訓練可能な報奨モデルを構築し,世界モデルによって予測される将来のダイナミクスと候補軌跡を整合させることにより,学習者に対する報奨モデルを構築する。
次に,教師の推論能力を軽量な学生政策に移行し,実時間展開性を維持しつつ計画性能を向上させるための政策蒸留と世界報酬蒸留を提案する。
オープンループとクローズドループのベンチマークにおいて、我々のWPTは単純なポリシーアーキテクチャで最先端のパフォーマンスを達成し、0.11の衝突率(オープンループ)と79.23の駆動スコア(クローズドループ)を精度と安全性の両方で達成している。
さらに、学生は最大4.9倍の速さで推論を継続し、ほとんどの利得を維持できる。
関連論文リスト
- AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-11-25T13:57:24Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - Enter the Void - Planning to Seek Entropy When Reward is Scarce [6.208654695856247]
本稿では,短時間の潜伏予測を用いて,高エントロピー状態の予測と探索を積極的に行う新しい手法を提案する。
提案する階層型プランナは,いつ計画を立てるか,地平線の長さを計画し,報酬とエントロピーの重み付けを動的に行う。
提案手法は,Dreamerのコンバージェンスにおいて,Dreamerのコンバージェンスよりも50%高速で,Dreamerが必要とする環境ステップの60%に,想像力で訓練されたポリシーが収束する。
論文 参考訳(メタデータ) (2025-05-22T15:28:50Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。