論文の概要: SokoBench: Evaluating Long-Horizon Planning and Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.20856v1
- Date: Wed, 28 Jan 2026 18:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.106791
- Title: SokoBench: Evaluating Long-Horizon Planning and Reasoning in Large Language Models
- Title(参考訳): SokoBench: 大規模言語モデルにおける長期計画と推論の評価
- Authors: Sebastiano Monti, Carlo Nicolini, Gianni Pellegrini, Jacopo Staiano, Bruno Lepri,
- Abstract要約: 本研究では,大規模言語モデルの計画的,長期的推論能力を体系的に評価する。
本稿では,ソコバンパズルに基づく新しいベンチマークを提案する。
以上の結果から,25以上の移動が必要な場合,計画性能が一貫した劣化がみられた。
- 参考スコア(独自算出の注目度): 6.718614728570862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the capabilities of large language models have been increasingly tested on complex reasoning tasks, their long-horizon planning abilities have not yet been extensively investigated. In this work, we provide a systematic assessment of the planning and long-horizon reasoning capabilities of state-of-the-art Large Reasoning Models (LRMs). We propose a novel benchmark based on Sokoban puzzles, intentionally simplified to isolate long-horizon planning from state persistence. Our findings reveal a consistent degradation in planning performance when more than 25 moves are required to reach the solution, suggesting a fundamental constraint on forward planning capacity. We show that equipping LRMs with Planning Domain Definition Language (PDDL) parsing, validation, and solving tools allows for modest improvements, suggesting inherent architectural limitations which might not be overcome by test-time scaling approaches alone.
- Abstract(参考訳): 大規模言語モデルの能力は複雑な推論タスクでますますテストされてきたが、その長期計画能力はまだ広く研究されていない。
本研究では,現状のLarge Reasoning Models (LRMs) の計画と長期的推論能力の体系的評価を行う。
本稿では,ソコバンパズルに基づく新しいベンチマークを提案する。
以上の結果から,25以上の動きが解決に必要となる場合,計画性能は一貫した劣化がみられ,今後の計画能力に根本的な制約が生じることが示唆された。
計画ドメイン定義言語(PDDL)のパース、検証、および解決ツールを備えたLEMを組み込むことで、適度な改善が可能であることを示し、テスト時のスケーリングアプローチだけでは克服できないような、固有のアーキテクチャ上の制限を提案する。
関連論文リスト
- DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文 参考訳(メタデータ) (2025-10-14T20:47:05Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - LLMs as Planning Formalizers: A Survey for Leveraging Large Language Models to Construct Automated Planning Models [18.66263636077183]
大規模言語モデル(LLM)は様々な自然言語処理に優れるが、長い水平計画問題に悩まされることが多い。
この制限は、自動計画(AP)と自然言語処理(NLP)コミュニティにニューロシンボリックアプローチを統合することに関心を寄せている。
論文 参考訳(メタデータ) (2025-03-22T03:35:44Z) - A Survey on Large Language Models for Automated Planning [15.767084100431115]
自動計画における大規模言語モデルの利用に関する既存の研究を批判的に調査する。
これらの制限のため、LCMは独立したプランナーとして機能するには適していないが、他のアプローチと組み合わせることで、計画アプリケーションを強化する大きな機会を提供する。
論文 参考訳(メタデータ) (2025-02-18T02:11:03Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。