論文の概要: Self-Improvement for Fast, High-Quality Plan Generation
- arxiv url: http://arxiv.org/abs/2605.03625v1
- Date: Tue, 05 May 2026 10:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.905761
- Title: Self-Improvement for Fast, High-Quality Plan Generation
- Title(参考訳): 高速かつ高品質な計画生成のための自己改善
- Authors: Robert Gieselmann, Henrike von Huelsen, Mihai Samson, Marie-Christine Meyer, Dariusz Piotrowski, Oleksandr Radomskyi, Justin Okamoto, Turan Gojayev, Michael Painter, Gavin Brown, Federico Pecora, Jeremy L. Wyatt,
- Abstract要約: 復号器のみの変換器は、未確認の問題インスタンスに対して高品質な計画を生成することができることを示す。
また、準最適データに基づいて訓練された初期モデルを自己改善する方法を示す。
- 参考スコア(独自算出の注目度): 13.377592170793994
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models trained on synthetic plan data are a promising approach to generalized planning. Recent work has focused on finding any valid plan, rather than a high-quality solution. We address the challenge of producing high-quality plans, a computationally hard problem, in sub-exponential time. First, we demonstrate that, given optimal data, a decoder-only transformer can generate high-quality plans for unseen problem instances. Second, we show how to self-improve an initial model trained on sub-optimal data. Each round of self-improvement combines multiple model calls with graph search to generate improved plans, used for model fine-tuning. An experimental study on four domains: Blocksworld, Logistics, Labyrinth, and Sokoban, shows on average a 30% reduction in plan length over the source symbolic planner, with over 80% of plans being optimal, where the optimum is known. Plan quality is further improved by inference-time search. The model's latency scales sub-exponentially in contrast to the satisficing and optimal symbolic planners to which we compare. Together, these results suggest that self-improvement with generative models offers a scalable approach for high-quality plan generation.
- Abstract(参考訳): 合成計画データに基づいて訓練された生成モデルは、一般化計画への有望なアプローチである。
最近の研究は、高品質なソリューションではなく、有効な計画を見つけることに重点を置いている。
計算的に難しい問題である高品質なプランをサブ指数時間で作成するという課題に対処する。
まず、最適なデータから、デコーダのみのトランスフォーマーが、目に見えない問題インスタンスの高品質なプランを生成することを実証する。
第2に、最適なデータに基づいて訓練された初期モデルを自己改善する方法を示す。
各ラウンドの自己改善は、複数のモデルコールとグラフ検索を組み合わせて、モデル微調整に使用される改善された計画を生成する。
ブロックスワールド、ロジスティックス、ラビリンス、ソコバンの4つの領域に関する実験では、計画の80%以上が最適であり、最適な計画が知られている。
計画品質は推論時間探索によりさらに改善される。
モデルのレイテンシは、我々が比較した満足度と最適なシンボリックプランナーとは対照的に、指数関数的にスケールする。
これらの結果は、生成モデルによる自己改善が、高品質な計画生成にスケーラブルなアプローチをもたらすことを示唆している。
関連論文リスト
- Unified Vector Floorplan Generation via Markup Representation [36.228613615394856]
本稿ではフロアプランマークアップ言語(FML)を紹介し,フロアプラン情報を単一構造文法内にエンコードする表現について述べる。
本研究では,多種多様な条件下で高忠実かつ機能的なフロアプランを生成可能なトランスフォーマーベース生成モデルFMLMを開発した。
論文 参考訳(メタデータ) (2026-04-06T17:04:30Z) - Closing the Train-Test Gap in World Models for Gradient-Based Planning [64.36544881136405]
本研究では,効率的な勾配計画を可能にする世界モデルの学習方法を提案する。
テスト時には,古典的勾配のないクロスエントロピー法よりも優れた手法が提案される。
論文 参考訳(メタデータ) (2025-12-10T18:59:45Z) - Demo: Generative AI helps Radiotherapy Planning with User Preference [8.699769678493807]
本稿では,ユーザ定義の嗜好味のみに基づいて3次元線量分布を予測する新しい生成モデルを提案する。
これらの選好により、プランナーは、オルガン・アット・リスク(OAR)とプランニングターゲットボリューム(PTV)の間の特定のトレードオフを優先順位付けできる。
論文 参考訳(メタデータ) (2025-12-08T16:49:21Z) - Satisficing and Optimal Generalised Planning via Goal Regression (Extended Version) [16.43772461453855]
汎用計画 (GP) とは、関連する計画問題のファミリーを解くプログラムを合成するタスクである。
GPのための新しい単純な手法を導入し、各問題に対する一連のトレーニング問題を与えられた場合、ある順序で各ゴール原子に対して最適な計画を計算する。
我々は,我々の方法が保証されている条件を定式化し,有効な一般化計画と探索のための状態空間決定公理を学習する。
論文 参考訳(メタデータ) (2025-11-14T09:16:32Z) - DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文 参考訳(メタデータ) (2025-10-14T20:47:05Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion
Planning [36.300564378022315]
本稿では,移動環境における移動操作問題を解決するための学習可能なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを提案する。
本アルゴリズムのコアは,タスク計画,目標,初期状態を考慮したトランスフォーマーに基づく新しい学習手法であるPIGINetであり,タスク計画に関連する運動軌跡の発見確率を予測する。
論文 参考訳(メタデータ) (2022-11-03T04:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。