論文の概要: Planning as Descent: Goal-Conditioned Latent Trajectory Synthesis in Learned Energy Landscapes
- arxiv url: http://arxiv.org/abs/2512.17846v1
- Date: Fri, 19 Dec 2025 17:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.517908
- Title: Planning as Descent: Goal-Conditioned Latent Trajectory Synthesis in Learned Energy Landscapes
- Title(参考訳): 未熟児としての計画:学習したエネルギー景観におけるゴール・コンディション付き潜在軌道合成
- Authors: Carlos Vélez García, Miguel Cazorla, Jorge Pomares,
- Abstract要約: Planning as Descent (PaD)は、オフラインの目標条件強化学習のためのフレームワークである。
PaDは潜在軌道全体にわたってゴール条件エネルギー関数を学習し、低エネルギーを実現可能でゴール一貫性のある未来に割り当てる。
この結果から,軌道の評価と洗練の学習が,直接政策学習の強力な代替手段となることが示唆された。
- 参考スコア(独自算出の注目度): 0.8703455323398351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Planning as Descent (PaD), a framework for offline goal-conditioned reinforcement learning that grounds trajectory synthesis in verification. Instead of learning a policy or explicit planner, PaD learns a goal-conditioned energy function over entire latent trajectories, assigning low energy to feasible, goal-consistent futures. Planning is realized as gradient-based refinement in this energy landscape, using identical computation during training and inference to reduce train-test mismatch common in decoupled modeling pipelines. PaD is trained via self-supervised hindsight goal relabeling, shaping the energy landscape around the planning dynamics. At inference, multiple trajectory candidates are refined under different temporal hypotheses, and low-energy plans balancing feasibility and efficiency are selected. We evaluate PaD on OGBench cube manipulation tasks. When trained on narrow expert demonstrations, PaD achieves state-of-the-art 95\% success, strongly outperforming prior methods that peak at 68\%. Remarkably, training on noisy, suboptimal data further improves success and plan efficiency, highlighting the benefits of verification-driven planning. Our results suggest learning to evaluate and refine trajectories provides a robust alternative to direct policy learning for offline, reward-free planning.
- Abstract(参考訳): 本研究では,軌道合成を基礎としたオフライン目標条件強化学習フレームワークであるPlanning as Descent (PaD)を提案する。
政策や明示的なプランナーを学ぶ代わりに、PaDは潜在軌道全体にわたってゴール条件のエネルギー関数を学び、低エネルギーを実現可能な目標一貫性のある未来に割り当てる。
計画は、このエネルギー環境における勾配に基づく改善として実現され、トレーニング中の同一の計算と推論を用いて、分離されたモデリングパイプラインで一般的な列車-テストミスマッチを低減する。
PaDは自己監督された後向きのゴールレバーベリングによって訓練され、計画力学の周りのエネルギー景観を形成する。
推定では、異なる時間仮説の下で複数の軌道候補が洗練され、実現可能性と効率のバランスをとる低エネルギープランが選択される。
OGBench立方体操作タスクにおけるPaDの評価を行った。
狭義の専門家によるデモンストレーションをトレーニングすると、PaDは最先端の95%の成功を達成し、68倍にピークする先行手法を強く上回ります。
注目すべきなのは、ノイズの多い亜最適データのトレーニングによって、成功と計画の効率がさらに向上し、検証駆動計画のメリットが強調されることだ。
この結果から,軌道の評価と洗練の学習が,オフラインで報酬のない計画のための直接的な政策学習の強力な代替手段となることが示唆された。
関連論文リスト
- Closing the Train-Test Gap in World Models for Gradient-Based Planning [64.36544881136405]
本研究では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
テスト時には,古典的勾配のないクロスエントロピー法よりも優れた手法が提案される。
論文 参考訳(メタデータ) (2025-12-10T18:59:45Z) - A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks [66.86312354478478]
大規模言語モデル(LLM)に基づくエージェントは、長期的タスクにおけるグローバルな計画の欠如により、脳の無い試行錯誤と幻覚行動を引き起こす。
計画実行フレームワークを導入し,人的努力を伴わずに実行エージェントの計画能力を高めるためのプランナー訓練手法を提案する。
実験の結果,我々のプランナーを組み込んだ実行エージェントは既存の手法よりも優れており,新たな最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-07T06:10:53Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Active Learning of Abstract Plan Feasibility [17.689758291966502]
本稿では,タスクに依存しない,好奇心を抱くロボットの探索を通じて,APF予測器を効率的に取得するための能動的学習手法を提案する。
アクティブラーニング戦略において,本システムでは,本システムでより少ないデータから学習できるように,実用不可能なサブシーケンス特性を活用して,候補計画の立案を行う。
物体が一様でない質量分布を持つ積層領域において,本システムは,400個の自己教師による相互作用において,APFモデルの実際のロボット学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-07-01T18:17:01Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。