論文の概要: Analysis of Optimality of Large Language Models on Planning Problems
- arxiv url: http://arxiv.org/abs/2604.02910v1
- Date: Fri, 03 Apr 2026 09:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.42815
- Title: Analysis of Optimality of Large Language Models on Planning Problems
- Title(参考訳): 大規模言語モデルの計画問題に対する最適性の解析
- Authors: Bernd Bohnet, Michael C. Mozer, Kevin Swersky, Wil Cunningham, Aaron Parisi, Kathleen Kenealy, Noah Fiedel,
- Abstract要約: 共振強化型Large Language Model (LLM) プランナーは理論的最適性限界をほぼ完全精度で追跡する。
また、意味論的先行から真の位相的推論を分離するために、公式な等価タスクである一般化されたパススター(P*$)グラフについても検討する。
- 参考スコア(独自算出の注目度): 12.31072556856411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classic AI planning problems have been revisited in the Large Language Model (LLM) era, with a focus of recent benchmarks on success rates rather than plan efficiency. We examine the degree to which frontier models reason optimally versus relying on simple, heuristic, and possibly inefficient strategies. We focus on the Blocksworld domain involving towers of labeled blocks which have to be moved from an initial to a goal configuration via a set of primitive actions. We also study a formally equivalent task, the generalized Path-Star ($P^*$) graph, in order to isolate true topological reasoning from semantic priors. We systematically manipulate problem depth (the height of block towers), width (the number of towers), and compositionality (the number of goal blocks). Reasoning-enhanced LLMs significantly outperform traditional satisficing planners (e.g., LAMA) in complex, multi-goal configurations. Although classical search algorithms hit a wall as the search space expands, LLMs track theoretical optimality limits with near-perfect precision, even when domain-specific semantic hints are stripped away. To explain these surprising findings, we consider (and find evidence to support) two hypotheses: an active Algorithmic Simulation executed via reasoning tokens and a Geometric Memory that allows models to represent the $P^*$ topology as a navigable global geometry, effectively bypassing exponential combinatorial complexity.
- Abstract(参考訳): 古典的なAI計画問題は、計画効率よりも成功率に関する最近のベンチマークを中心に、Large Language Model(LLM)時代に再検討されている。
我々は、フロンティアモデルが最適に理にかなっているか、単純でヒューリスティックでおそらく非効率な戦略に依存しているかを検討する。
プリミティブアクションのセットを通じて初期から目標設定に移行する必要があるラベル付きブロックの塔を含むBlocksworldドメインに焦点を当てる。
また,意味論的先行性から真の位相的推論を分離するために,一般化されたパススター(P^*$)グラフについても検討する。
我々は,問題深さ(ブロックタワーの高さ),幅(タワー数),構成性(ゴールブロック数)を体系的に操作する。
Reasoning-enhanced LLMsは、複雑なマルチゴール構成で従来の満足度プランナー(例:LAMA)を著しく上回る。
古典的な検索アルゴリズムは、検索空間が拡大するにつれて壁にぶつかるが、LLMは、ドメイン固有の意味的ヒントが取り除かれても、ほぼ完全な精度で理論上の最適性限界を追跡する。
これらの驚くべき発見を説明するために、我々は2つの仮説を考察する(そして支持する証拠を見つける)。推論トークンを介して実行されるアクティブアルゴリズムシミュレーションと、指数的組合せ複雑性を効果的に回避して、モデルがナビゲート可能な大域幾何学として$P^*$トポロジーを表現できる幾何メモリである。
関連論文リスト
- Can LLMs Prove Robotic Path Planning Optimality? A Benchmark for Research-Level Algorithm Verification [5.637461397736495]
本稿では,ロボット経路計画アルゴリズムの近似比証明について,LLM(Large Language Models)を評価するための最初のベンチマークを紹介する。
我々の評価では、最強のモデルでさえ、外部のドメイン知識なしで完全に有効な証明を作成するのに苦労していることが明らかになっている。
論文 参考訳(メタデータ) (2026-03-19T20:55:46Z) - On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - Multi-Objective Hierarchical Optimization with Large Language Models [41.41567058185742]
大規模言語モデル(LLM)は、多目的最適化を推進するための既定の選択肢ではない。
本稿では,このギャップを,構造化階層型探索戦略内での代理モデルと候補サンプルとしてLLMを活用することで解決する。
論文 参考訳(メタデータ) (2026-01-20T12:10:13Z) - OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - Geometrically-Constrained Agent for Spatial Reasoning [53.93718394870856]
視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。
現在のパラダイムは、このギャップを埋めることに失敗します。
本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:50:37Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。