論文の概要: SPIRAL: Symbolic LLM Planning via Grounded and Reflective Search
- arxiv url: http://arxiv.org/abs/2512.23167v1
- Date: Mon, 29 Dec 2025 03:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.387816
- Title: SPIRAL: Symbolic LLM Planning via Grounded and Reflective Search
- Title(参考訳): SPIRAL: 接地・反射探索によるシンボリックLLM計画
- Authors: Yifan Zhang, Giridhar Ganapavarapu, Srideepika Jayaraman, Bhavna Agrawal, Dhaval Patel, Achille Fokoue,
- Abstract要約: SPIRALは3つの専門的な大規模言語モデルの認知アーキテクチャをモンテカルロ木探索ループに組み込む新しいフレームワークである。
DailyLifeAPIsとHuggingFaceデータセットでは、SPIRALがデフォルトのChain-of-the-artプランニングメソッドを一貫して上回っている。
我々の研究は、LLM推論をガイド付き、反射型、接地型検索プロセスとして構築することで、より堅牢で効率的な自律型プランナーが得られることを示した。
- 参考スコア(独自算出の注目度): 11.651841902428673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often falter at complex planning tasks that require exploration and self-correction, as their linear reasoning process struggles to recover from early mistakes. While search algorithms like Monte Carlo Tree Search (MCTS) can explore alternatives, they are often ineffective when guided by sparse rewards and fail to leverage the rich semantic capabilities of LLMs. We introduce SPIRAL (Symbolic LLM Planning via Grounded and Reflective Search), a novel framework that embeds a cognitive architecture of three specialized LLM agents into an MCTS loop. SPIRAL's key contribution is its integrated planning pipeline where a Planner proposes creative next steps, a Simulator grounds the search by predicting realistic outcomes, and a Critic provides dense reward signals through reflection. This synergy transforms MCTS from a brute-force search into a guided, self-correcting reasoning process. On the DailyLifeAPIs and HuggingFace datasets, SPIRAL consistently outperforms the default Chain-of-Thought planning method and other state-of-the-art agents. More importantly, it substantially surpasses other state-of-the-art agents; for example, SPIRAL achieves 83.6% overall accuracy on DailyLifeAPIs, an improvement of over 16 percentage points against the next-best search framework, while also demonstrating superior token efficiency. Our work demonstrates that structuring LLM reasoning as a guided, reflective, and grounded search process yields more robust and efficient autonomous planners. The source code, full appendices, and all experimental data are available for reproducibility at the official project repository.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、しばしば、線形推論プロセスが早期のミスから回復するのに苦労するため、探索と自己補正を必要とする複雑な計画タスクに悩まされる。
Monte Carlo Tree Search (MCTS)のような検索アルゴリズムは代替手段を探索できるが、少ない報酬によって誘導される場合、LLMのリッチなセマンティック機能を利用することができない場合、しばしば効果がない。
SPIRAL(Symbolic LLM Planning via Grounded and Reflective Search)は、3つの特殊なLLMエージェントの認知アーキテクチャをMCTSループに組み込む新しいフレームワークである。
SPIRALの重要な貢献は、プランナーが創造的な次のステップを提案し、シミュレータが現実的な成果を予測して探索し、Cryticがリフレクションを通じて深い報酬信号を提供する、統合計画パイプラインである。
このシナジーは、MCTSをブルートフォース探索からガイド付き自己補正推論プロセスに変換する。
DailyLifeAPIsとHuggingFaceデータセットでは、SPIRALはデフォルトのChain-of-Thoughtプランニングメソッドやその他の最先端エージェントを一貫して上回っている。
例えば、SPIRALはDailyLifeAPIsで83.6%の精度を達成し、次のベスト検索フレームワークに対して16ポイント以上改善し、トークン効率も向上した。
我々の研究は、LLM推論をガイド付き、反射型、接地型検索プロセスとして構築することで、より堅牢で効率的な自律型プランナーが得られることを示した。
ソースコード、全付録、実験データはすべて、公式のプロジェクトリポジトリで再現可能である。
関連論文リスト
- ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。
複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。
この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文 参考訳(メタデータ) (2025-08-03T11:26:35Z) - SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。
知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-09T08:52:27Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - ConceptAgent: LLM-Driven Precondition Grounding and Tree Search for Robust Task Planning and Execution [33.252158560173655]
ConceptAgentは、非構造化環境でのタスク実行用に設計された自然言語駆動のロボットプラットフォームである。
本研究では,1)不可能な行動の防止と回復を目的とした述語接地,2)自己反射を用いたLLM誘導モンテカルロ木探索の具体化など,欠点を抑えるために設計されたイノベーションを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:05:40Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。