論文の概要: Closing the Train-Test Gap in World Models for Gradient-Based Planning
- arxiv url: http://arxiv.org/abs/2512.09929v1
- Date: Wed, 10 Dec 2025 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.652308
- Title: Closing the Train-Test Gap in World Models for Gradient-Based Planning
- Title(参考訳): グラディエント計画のための世界モデルにおける列車試験ギャップの閉鎖
- Authors: Arjun Parthasarathy, Nimit Kalra, Rohun Agrawal, Yann LeCun, Oumayma Bounou, Pavel Izmailov, Micah Goldblum,
- Abstract要約: 本研究では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
テスト時には,古典的勾配のないクロスエントロピー法よりも優れた手法が提案される。
- 参考スコア(独自算出の注目度): 64.36544881136405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models paired with model predictive control (MPC) can be trained offline on large-scale datasets of expert trajectories and enable generalization to a wide range of planning tasks at inference time. Compared to traditional MPC procedures, which rely on slow search algorithms or on iteratively solving optimization problems exactly, gradient-based planning offers a computationally efficient alternative. However, the performance of gradient-based planning has thus far lagged behind that of other approaches. In this paper, we propose improved methods for training world models that enable efficient gradient-based planning. We begin with the observation that although a world model is trained on a next-state prediction objective, it is used at test-time to instead estimate a sequence of actions. The goal of our work is to close this train-test gap. To that end, we propose train-time data synthesis techniques that enable significantly improved gradient-based planning with existing world models. At test time, our approach outperforms or matches the classical gradient-free cross-entropy method (CEM) across a variety of object manipulation and navigation tasks in 10% of the time budget.
- Abstract(参考訳): モデル予測制御(MPC)と組み合わせた世界モデルは、専門家軌道の大規模データセット上でオフラインでトレーニングすることができ、推論時に幅広い計画タスクに一般化することができる。
遅い探索アルゴリズムや反復的な最適化問題を正確に解く伝統的なMPCプロシージャと比較して、勾配ベースのプランニングは計算的に効率的な代替手段を提供する。
しかし、勾配に基づく計画法の性能は他の手法よりもずっと遅れを取っている。
本稿では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
まず、世界モデルは次の状態予測目標に基づいて訓練されるが、代わりにテスト時に行動列を推定する。
私たちの仕事は、この列車とテストのギャップを埋めることです。
そこで本研究では,既存の世界モデルによる勾配計画を大幅に改善する列車時データ合成手法を提案する。
テスト時間では,従来の勾配のないクロスエントロピー法(CEM)を,時間予算の10%で様々なオブジェクト操作やナビゲーションタスクで上回る,あるいは一致させる。
関連論文リスト
- Bounding Distributional Shifts in World Modeling through Novelty Detection [15.354352209595973]
本研究では, 学習モデルが学習データ分布から逸脱しないように, 新規性検知器として変分オートエンコーダを用いる。
提案手法は,データ効率の観点から最先端のソリューションを改良する。
論文 参考訳(メタデータ) (2025-08-08T07:42:14Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Gradient-based Planning with World Models [21.9392160209565]
我々は、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
サンプル効率のよい設定では、ほとんどのタスクの代替手法と比較して、同等あるいは優れた性能が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:54:21Z) - Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文 参考訳(メタデータ) (2023-11-23T09:57:35Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。