論文の概要: Textual Planning with Explicit Latent Transitions
- arxiv url: http://arxiv.org/abs/2602.04557v1
- Date: Wed, 04 Feb 2026 13:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.55091
- Title: Textual Planning with Explicit Latent Transitions
- Title(参考訳): 明示的な潜在遷移を伴うテキストプランニング
- Authors: Eliezer Shlomi, Ido Levy, Eilam Shapira, Michael Katz, Guy Uziel, Segev Shlomov, Nir Mashkif, Roi Reichart, Sarah Keren,
- Abstract要約: LLMによるプランニングはトークン・バイ・トークン・ジェネレーションと,フルフォワードの繰り返しによってボトルネックとなる。
フリーズ言語空間で動作する軽量トランジションモデルを用いて, 自己回帰的次状態生成を置き換えた EmbedPlan を提案する。
- 参考スコア(独自算出の注目度): 24.122955653850166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning with LLMs is bottlenecked by token-by-token generation and repeated full forward passes, making multi-step lookahead and rollout-based search expensive in latency and compute. We propose EmbedPlan, which replaces autoregressive next-state generation with a lightweight transition model operating in a frozen language embedding space. EmbedPlan encodes natural language state and action descriptions into vectors, predicts the next-state embedding, and retrieves the next state by nearest-neighbor similarity, enabling fast planning computation without fine-tuning the encoder. We evaluate next-state prediction across nine classical planning domains using six evaluation protocols of increasing difficulty: interpolation, plan-variant, extrapolation, multi-domain, cross-domain, and leave-one-out. Results show near-perfect interpolation performance but a sharp degradation when generalization requires transfer to unseen problems or unseen domains; plan-variant evaluation indicates generalization to alternative plans rather than memorizing seen trajectories. Overall, frozen embeddings support within-domain dynamics learning after observing a domain's transitions, while transfer across domain boundaries remains a bottleneck.
- Abstract(参考訳): LLMによるプランニングはトークンバイトークン生成とフルフォワードの繰り返しによってボトルネックになり、複数ステップのルックアヘッドとロールアウトベースの検索がレイテンシと計算に高価になる。
フリーズ言語埋め込み空間で動作する軽量トランジションモデルを用いて,自己回帰的次状態生成を置き換えた EmbedPlan を提案する。
EmbedPlanは、自然言語の状態とアクション記述をベクトルにエンコードし、次の状態の埋め込みを予測する。
我々は,9つの古典的計画領域の次状態予測を,補間,計画不変,外挿,マルチドメイン,クロスドメイン,離脱ワンアウトの6つの評価プロトコルを用いて評価する。
その結果、ほぼ完全な補間性能を示すが、一般化が未確認問題や未確認領域への移行を必要とする場合の急激な劣化は、観測された軌跡を記憶するのではなく、代替計画への一般化を示す。
全体として、凍結した埋め込みはドメインの遷移を観察した後のドメイン内ダイナミクス学習をサポートします。
関連論文リスト
- LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry [41.054069737969876]
非構造環境における軌道計画は、移動ロボットの基本的で困難な能力である。
ローカライズされたエンドツーエンドナビゲーションフレームワークであるLoGoPlannerを紹介する。
シミュレーションと実世界の両方の環境でLoGoPlannerを評価し,その完全なエンドツーエンド設計により累積誤差が低減される。
論文 参考訳(メタデータ) (2025-12-22T18:03:08Z) - Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - G2LTraj: A Global-to-Local Generation Approach for Trajectory Prediction [23.181232260820373]
軌道予測のためのグローバル・ローカルな生成手法であるG2LTrajを提案する。
私たちは、将来の時間範囲全体を均一にカバーする一連のグローバルなキーステップを生成します。
このようにして、累積誤差が隣接するキーステップを超えて伝播するのを防ぐ。
論文 参考訳(メタデータ) (2024-04-30T07:53:34Z) - Continuous-Time and Multi-Level Graph Representation Learning for
Origin-Destination Demand Prediction [52.0977259978343]
本稿では,原位置需要予測(CMOD)のための連続時間および多段階動的グラフ表現学習法を提案する。
状態ベクトルは、過去のトランザクション情報を保持し、最近発生したトランザクションに従って継続的に更新される。
北京地下鉄とニューヨークタクシーの2つの実世界のデータセットを用いて実験を行い、そのモデルが最先端のアプローチに対して優れていることを実証した。
論文 参考訳(メタデータ) (2022-06-30T03:37:50Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Reinforcement Learning for POMDP: Partitioned Rollout and Policy
Iteration with Application to Autonomous Sequential Repair Problems [2.6389022766562236]
有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。
本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
論文 参考訳(メタデータ) (2020-02-11T02:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。