論文の概要: Compositional Planning with Jumpy World Models
- arxiv url: http://arxiv.org/abs/2602.19634v1
- Date: Mon, 23 Feb 2026 09:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.753158
- Title: Compositional Planning with Jumpy World Models
- Title(参考訳): 跳躍世界モデルによる構成計画
- Authors: Jesse Farebrother, Matteo Pirotta, Andrea Tirinzoni, Marc G. Bellemare, Alessandro Lazaric, Ahmed Touati,
- Abstract要約: 我々は、事前訓練されたポリシーを構成するエージェントを時間的に拡張したアクションとして研究し、構成員だけでは解決できない複雑なタスクに対する解決を可能にする。
arXiv:2206.08736で導入された幾何学的ポリシー構成フレームワークをモチベーションとして,多段階力学の予測モデルを学習することにより,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 70.74595987225908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to plan with temporal abstractions is central to intelligent decision-making. Rather than reasoning over primitive actions, we study agents that compose pre-trained policies as temporally extended actions, enabling solutions to complex tasks that no constituent alone can solve. Such compositional planning remains elusive as compounding errors in long-horizon predictions make it challenging to estimate the visitation distribution induced by sequencing policies. Motivated by the geometric policy composition framework introduced in arXiv:2206.08736, we address these challenges by learning predictive models of multi-step dynamics -- so-called jumpy world models -- that capture state occupancies induced by pre-trained policies across multiple timescales in an off-policy manner. Building on Temporal Difference Flows (arXiv:2503.09817), we enhance these models with a novel consistency objective that aligns predictions across timescales, improving long-horizon predictive accuracy. We further demonstrate how to combine these generative predictions to estimate the value of executing arbitrary sequences of policies over varying timescales. Empirically, we find that compositional planning with jumpy world models significantly improves zero-shot performance across a wide range of base policies on challenging manipulation and navigation tasks, yielding, on average, a 200% relative improvement over planning with primitive actions on long-horizon tasks.
- Abstract(参考訳): 時間的抽象化で計画する能力は、インテリジェントな意思決定の中心である。
プリミティブなアクションを推論する代わりに、事前訓練されたポリシーを構成するエージェントを時間的に拡張したアクションとして研究し、構成員だけでは解決できない複雑なタスクに対する解決を可能にする。
このような構成的計画法は、長期水平予測における複合的エラーにより、シーケンシングポリシーによって引き起こされる訪問分布を推定することが困難である。
arXiv:2206.08736で導入された幾何学的政策構成フレームワークに動機づけられた我々は、複数の時間スケールで事前訓練された政策によって引き起こされる状態の占有を非政治的に捉える多段階ダイナミクス(いわゆるジャンピーワールドモデル)の予測モデルを学ぶことによって、これらの課題に対処する。
時間的差分フロー(arXiv:2503.09817)に基づいて、時間スケールで予測を整合させる新しい一貫性目標により、これらのモデルを強化し、長期水平予測精度を向上させる。
さらに、これらの生成予測を組み合わせることで、様々な時間スケールでポリシーの任意のシーケンスを実行する価値を見積もる方法について述べる。
実験により,跳躍世界モデルを用いた構成計画では,操作やナビゲーション作業に挑戦する幅広い基本方針のゼロショット性能が著しく向上し,長軸タスクにおける原始的行動による計画よりも平均で200%向上することが判明した。
関連論文リスト
- Closing the Train-Test Gap in World Models for Gradient-Based Planning [64.36544881136405]
本研究では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
テスト時には,古典的勾配のないクロスエントロピー法よりも優れた手法が提案される。
論文 参考訳(メタデータ) (2025-12-10T18:59:45Z) - Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models [45.523937630646394]
本研究では,モデルベース強化学習における新たなパラダイムであるSFP予測・アズ・プランニング(SFP)を提案する。
SFPは、多様な高時間将来の状態をシミュレートし、「想像に基づく」環境シミュレーションを可能にする新しい世界モデルを構築している。
論文 参考訳(メタデータ) (2025-10-05T03:57:38Z) - Adaptive Conformal Prediction Intervals Over Trajectory Ensembles [50.31074512684758]
将来の軌道は、自律運転、ハリケーン予測、疫病モデルといった領域で重要な役割を果たしている。
本稿では,サンプル軌道を理論的カバレッジ保証付き校正された予測区間に変換する共形予測に基づく統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:14:07Z) - Next-Generation Conflict Forecasting: Unleashing Predictive Patterns through Spatiotemporal Learning [0.0]
本研究では、3つの異なるタイプの暴力を事前に36ヶ月予測するためのニューラルネットワークアーキテクチャを提案する。
このモデルは確率的分類と回帰タスクを共同で実行し、将来の事象の予測と予測等級を生成する。
警告システム、人道的対応計画、証拠に基づく平和構築イニシアチブのための有望なツールである。
論文 参考訳(メタデータ) (2025-06-08T20:42:29Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。