論文の概要: On Sample-Efficient Generalized Planning via Learned Transition Models
- arxiv url: http://arxiv.org/abs/2602.23148v1
- Date: Thu, 26 Feb 2026 16:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.765924
- Title: On Sample-Efficient Generalized Planning via Learned Transition Models
- Title(参考訳): 学習遷移モデルによるサンプル効率の良い一般化計画について
- Authors: Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava,
- Abstract要約: 一般的な計画は、共通のドメインモデルを共有する計画問題のファミリーにまたがって一般化するソリューション戦略の構築を研究する。
近年のPlanGPTやPlansformerのようなトランスフォーマーベースのプランナーは、直接アクションシーケンス予測として一般的な計画を立てた。
遷移モデル学習問題として一般化計画を定式化し、ニューラルネットワークが後続状態関数 $hat approx $ を明示的に近似し、シンボル状態軌跡をロールアウトして計画を生成する。
- 参考スコア(独自算出の注目度): 8.508980351550003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized planning studies the construction of solution strategies that generalize across families of planning problems sharing a common domain model, formally defined by a transition function $γ: S \times A \rightarrow S$. Classical approaches achieve such generalization through symbolic abstractions and explicit reasoning over $γ$. In contrast, recent Transformer-based planners, such as PlanGPT and Plansformer, largely cast generalized planning as direct action-sequence prediction, bypassing explicit transition modeling. While effective on in-distribution instances, these approaches typically require large datasets and model sizes, and often suffer from state drift in long-horizon settings due to the absence of explicit world-state evolution. In this work, we formulate generalized planning as a transition-model learning problem, in which a neural model explicitly approximates the successor-state function $\hatγ \approx γ$ and generates plans by rolling out symbolic state trajectories. Instead of predicting actions directly, the model autoregressively predicts intermediate world states, thereby learning the domain dynamics as an implicit world model. To study size-invariant generalization and sample efficiency, we systematically evaluate multiple state representations and neural architectures, including relational graph encodings. Our results show that learning explicit transition models yields higher out-of-distribution satisficing-plan success than direct action-sequence prediction in multiple domains, while achieving these gains with significantly fewer training instances and smaller models. This is an extended version of a short paper accepted at ICAPS 2026 under the same title.
- Abstract(参考訳): 一般化された計画は、共通のドメインモデルを共有する計画問題の族にまたがって一般化する解戦略の構築について研究し、正式には遷移関数 $γ: S \times A \rightarrow S$ で定義される。
古典的なアプローチは、シンボリック抽象と明示的な推論を通じて、$γ$を超える一般化を達成する。
対照的に、最近のPlanGPTやPlansformerのようなTransformerベースのプランナーは、明示的な遷移モデリングを回避し、直接アクションシーケンス予測として一般化された計画に大きく貢献した。
分散インスタンスでは有効であるが、これらのアプローチは一般的に大きなデータセットとモデルサイズを必要とする。
本研究では,遷移モデル学習問題として一般化計画を定式化し,ニューラルネットワークが後続状態関数 $\hatγ \approx γ$ を明示的に近似し,記号的状態軌跡をロールアウトして計画を生成する。
アクションを直接予測するのではなく、モデルが自己回帰的に中間世界の状態を予測し、暗黙の世界モデルとしてドメインダイナミクスを学ぶ。
サイズ不変の一般化とサンプル効率を検討するため,関係グラフ符号化を含む複数の状態表現とニューラルアーキテクチャを体系的に評価した。
これらの結果から,学習の明示的な遷移モデルにより,複数の領域における直接行動系列予測よりも分布外満足度プランの成功率が向上し,トレーニングインスタンスやより小さいモデルでこれらの成果が得られたことが示唆された。
これはICAPS 2026で同じタイトルで受け入れられた短い論文の拡張版である。
関連論文リスト
- Compositional Planning with Jumpy World Models [70.74595987225908]
我々は、事前訓練されたポリシーを構成するエージェントを時間的に拡張したアクションとして研究し、構成員だけでは解決できない複雑なタスクに対する解決を可能にする。
arXiv:2206.08736で導入された幾何学的ポリシー構成フレームワークをモチベーションとして,多段階力学の予測モデルを学習することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-02-23T09:22:21Z) - On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。
本研究では,時間領域毎に最適な因果予測値が得られることを示す。
合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文 参考訳(メタデータ) (2025-06-21T14:05:37Z) - Large Trajectory Models are Scalable Motion Predictors and Planners [25.03447801499]
自律走行において、運動予測と計画が不可欠である。
STR(State Transformer)と呼ばれるスケーラブルな軌道モデルを導入する。
STRは、観測、状態、動作を1つの統合シーケンスモデリングタスクにアレンジすることで、動作予測と動作計画の問題を再構成する。
論文 参考訳(メタデータ) (2023-10-30T15:12:41Z) - Transfer learning with affine model transformation [18.13383101189326]
本稿では,アフィンモデル転送と呼ばれる,伝達学習の一般的なクラスについて述べる。
アフィンモデル転送は、ニューラル特徴抽出器に基づく最も一般的な手順を含む、様々な既存手法を幅広く包含していることが示されている。
論文 参考訳(メタデータ) (2022-10-18T10:50:24Z) - Super-model ecosystem: A domain-adaptation perspective [101.76769818069072]
本稿では,ドメイン適応による新たなスーパーモデルパラダイムの理論的基礎を確立することを試みる。
スーパーモデルパラダイムは、計算とデータコストと二酸化炭素排出量を減らすのに役立つ。
論文 参考訳(メタデータ) (2022-08-30T09:09:43Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。