論文の概要: Parallel Stochastic Gradient-Based Planning for World Models
- arxiv url: http://arxiv.org/abs/2602.00475v1
- Date: Sat, 31 Jan 2026 02:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.210045
- Title: Parallel Stochastic Gradient-Based Planning for World Models
- Title(参考訳): 並列確率勾配に基づく世界モデルの計画
- Authors: Michael Psenka, Michael Rabbat, Aditi Krishnapriyan, Yann LeCun, Amir Bar,
- Abstract要約: 本稿では,学習した世界モデルの識別性を有効に活用する,堅牢で並列性の高いプランナを提案する。
本手法は,ソフトダイナミックス制約による最適化変数(仮想状態)として状態を扱い,並列かつ容易な最適化を実現する。
我々のプランナーはGRASP(GradAxed Planner)と呼ばれ、非凝縮またはコロケーションベースの最適コントローラの有効なバージョンと見なすことができる。
- 参考スコア(独自算出の注目度): 39.699893143984916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models simulate environment dynamics from raw sensory inputs like video. However, using them for planning can be challenging due to the vast and unstructured search space. We propose a robust and highly parallelizable planner that leverages the differentiability of the learned world model for efficient optimization, solving long-horizon control tasks from visual input. Our method treats states as optimization variables ("virtual states") with soft dynamics constraints, enabling parallel computation and easier optimization. To facilitate exploration and avoid local optima, we introduce stochasticity into the states. To mitigate sensitive gradients through high-dimensional vision-based world models, we modify the gradient structure to descend towards valid plans while only requiring action-input gradients. Our planner, which we call GRASP (Gradient RelAxed Stochastic Planner), can be viewed as a stochastic version of a non-condensed or collocation-based optimal controller. We provide theoretical justification and experiments on video-based world models, where our resulting planner outperforms existing planning algorithms like the cross-entropy method (CEM) and vanilla gradient-based optimization (GD) on long-horizon experiments, both in success rate and time to convergence.
- Abstract(参考訳): 世界モデルは、ビデオのような生の感覚入力から環境力学をシミュレートする。
しかし、膨大な未構造化の検索スペースのため、計画にそれらを使用することは困難である。
本稿では,学習した世界モデルの微分可能性を利用して,効率的な最適化を行い,視覚的入力から長期制御タスクを解く,頑健で並列性の高いプランナを提案する。
本手法は,ソフトダイナミックス制約による最適化変数(仮想状態)として状態を扱い,並列計算と簡易な最適化を実現する。
探索の容易化と地域最適化の回避のために,州に確率性を導入する。
高次元視覚に基づく世界モデルによる感度勾配を緩和するため、動作入力勾配のみを必要としながら、有効な計画へと下降するように勾配構造を修正した。
我々のプランナーはGRASP(Gradient RelAxed Stochastic Planner)と呼ばれ、非凝縮型またはコロケーション型最適制御器の確率版とみなすことができる。
我々は、ビデオベースの世界モデルに関する理論的正当化と実験を行い、結果のプランナーは、成功率と収束時間の両方において、長い水平実験において、クロスエントロピー法(CEM)やバニラ勾配に基づく最適化(GD)のような既存の計画アルゴリズムより優れている。
関連論文リスト
- Neural Nonmyopic Bayesian Optimization in Dynamic Cost Settings [73.44599934855067]
LookaHESは、動的で履歴に依存したコスト環境のために設計された非心筋BOフレームワークである。
LookaHESは、$H$-Entropy Searchのマルチステップ版と、パスワイズサンプリングとニューラルポリシー最適化を組み合わせたものだ。
私たちの革新は、構造化されたドメイン固有のアクションスペースを効果的にナビゲートするために、大きな言語モデルを含むニューラルポリシーの統合です。
論文 参考訳(メタデータ) (2026-01-10T09:49:45Z) - Closing the Train-Test Gap in World Models for Gradient-Based Planning [64.36544881136405]
本研究では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
テスト時には,古典的勾配のないクロスエントロピー法よりも優れた手法が提案される。
論文 参考訳(メタデータ) (2025-12-10T18:59:45Z) - Autonomous Vehicle Path Planning by Searching With Differentiable Simulation [55.46735086899153]
計画では、エージェントが現実世界で実行する前に、アクションを安全に洗練することができる。
自動運転では、衝突を避け、複雑な密集した交通シナリオをナビゲートすることが不可欠である。
本稿では、微分可能シミュレータWaymaxを次の状態予測と批判の両方として活用するフレームワークである、微分可能探索シミュレーション(DSS)を提案する。
論文 参考訳(メタデータ) (2025-11-14T07:56:34Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Rethinking Optimization with Differentiable Simulation from a Global
Perspective [20.424212055832676]
微分可能シミュレーションは、高速勾配に基づくポリシー最適化とシステム同定のための有望なツールキットである。
一つの降下がグローバルな最適値に達することを期待できない場合に、微分可能シミュレーションがもたらす課題について検討する。
本研究では,ベイズ最適化を半局所的な「リープ」と組み合わせて,勾配を効果的に活用できる大域的探索手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T17:08:53Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。