論文の概要: Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
- arxiv url: http://arxiv.org/abs/2605.06840v3
- Date: Tue, 12 May 2026 13:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.814797
- Title: Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
- Title(参考訳): LLM推論から探索木を抽出すると、ミオピック計画が明らかになる
- Authors: Sixing Chen, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, Marcelo G. Mattar,
- Abstract要約: 大規模言語モデル(LLM)は、将来の結果に対する明確な議論を含む拡張チェーン・オブ・シント(CoT)推論を生成する。
本研究では,4対1のボードゲームにおいて,探索木を推論トレースから抽出し,定量化することにより,LSM計画の特徴付けを行う新しい手法を提案する。
LLMの探索は人間より浅く, 深度よりも幅の広い探索により予測できることがわかった。
- 参考スコア(独自算出の注目度): 5.037469656030822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs), especially reasoning models, generate extended chain-of-thought (CoT) reasoning that often contains explicit deliberation over future outcomes. Yet whether this deliberation constitutes genuine planning, how it is structured, and what aspects of it drive performance remain poorly understood. In this work, we introduce a new method to characterize LLM planning by extracting and quantifying search trees from reasoning traces in the four-in-a-row board game. By fitting computational models on the extracted search trees, we characterize how plans are structured and how they influence move decisions. We find that LLMs' search is shallower than humans', and that performance is predicted by search breadth rather than depth. Most strikingly, although LLMs expand deep nodes in their traces, their move choices are best explained by a myopic model that ignores those nodes entirely. A causal intervention study where we selectively prune CoT paragraphs further suggests that move selection is driven predominantly by shallow rather than deep nodes. These patterns contrast with human planning, where performance is driven primarily by deep search. Together, our findings reveal a key difference between LLM and human planning: while human expertise is driven by deeper search, LLMs do not act on deep lookahead. This dissociation offers targeted guidance for aligning LLM and human planning. More broadly, our framework provides a generalizable approach for interpreting the structure of LLM planning across strategic domains.
- Abstract(参考訳): 大規模言語モデル(LLM)、特に推論モデル(英語版)は、将来の結果に対する明確な議論を含む拡張チェーン・オブ・シント(CoT)推論を生成する。
しかし、この議論が真の計画を構成するのか、どのように構成されているのか、パフォーマンスのどの側面がまだ理解されていないままである。
本研究では,4-in-a-rowボードゲームにおける推論トレースから探索木を抽出し,定量化することにより,LSM計画の特徴付けを行う新しい手法を提案する。
抽出した探索木に計算モデルを適用することにより、どのように計画が構造化され、それらが行動決定にどのように影響するかを特徴付ける。
LLMの探索は人間より浅く, 深度よりも幅の広い探索により予測できることがわかった。
LLMはそのトレースにおいて深いノードを拡大するが、その移動選択はこれらのノードを完全に無視するミオピックモデルによって最もよく説明される。
CoT段落を選択的にプルークする因果介入研究は、移動選択は深いノードではなく浅いノードによって主に駆動されることを示唆している。
これらのパターンは、主に深い探索によってパフォーマンスが駆動される人間の計画とは対照的である。
人間の専門知識は深い探索によって駆動されるが、LLMは深い視野では機能しない。
この解離は、LLMと人的計画の整合を目標とするガイダンスを提供する。
より広範に、我々のフレームワークは戦略領域をまたいだLSM計画の構造を解釈するための一般化可能なアプローチを提供する。
関連論文リスト
- GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。
私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文 参考訳(メタデータ) (2025-02-04T22:08:20Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Furthest Reasoning with Plan Assessment: Stable Reasoning Path with
Retrieval-Augmented Large Language Models [10.04323204974924]
MHQA(Multi-Hop Question Answering)は広く議論されているカテゴリである。
既存の手法では、推論パスと計画を生成するためにLarge Language Models (LLM) を採用している。
We propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA)。
論文 参考訳(メタデータ) (2023-09-22T10:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。