論文の概要: Knowledge Model Prompting Increases LLM Performance on Planning Tasks
- arxiv url: http://arxiv.org/abs/2602.03900v1
- Date: Tue, 03 Feb 2026 09:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.213442
- Title: Knowledge Model Prompting Increases LLM Performance on Planning Tasks
- Title(参考訳): 計画課題におけるLLM性能向上のための知識モデルの提案
- Authors: Erik Goh, John Kos, Ashok Goel,
- Abstract要約: 本稿では,タスク・メソッド・知識・フレームワークが大規模言語モデルの推論能力を向上できるかどうかを検討する。
この研究はPlanBenchベンチマークを用いてTMKを評価し、推論と計画能力をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLM) can struggle with reasoning ability and planning tasks. Many prompting techniques have been developed to assist with LLM reasoning, notably Chain-of-Thought (CoT); however, these techniques, too, have come under scrutiny as LLMs' ability to reason at all has come into question. Borrowing from the domain of cognitive and educational science, this paper investigates whether the Task-Method-Knowledge (TMK) framework can improve LLM reasoning capabilities beyond its previously demonstrated success in educational applications. The TMK framework's unique ability to capture causal, teleological, and hierarchical reasoning structures, combined with its explicit task decomposition mechanisms, makes it particularly well-suited for addressing language model reasoning deficiencies, and unlike other hierarchical frameworks such as HTN and BDI, TMK provides explicit representations of not just what to do and how to do it, but also why actions are taken. The study evaluates TMK by experimenting on the PlanBench benchmark, focusing on the Blocksworld domain to test for reasoning and planning capabilities, examining whether TMK-structured prompting can help language models better decompose complex planning problems into manageable sub-tasks. Results also highlight significant performance inversion in reasoning models. TMK prompting enables the reasoning model to achieve up to an accuracy of 97.3\% on opaque, symbolic tasks (Random versions of Blocksworld in PlanBench) where it previously failed (31.5\%), suggesting the potential to bridge the gap between semantic approximation and symbolic manipulation. Our findings suggest that TMK functions not merely as context, but also as a mechanism that steers reasoning models away from their default linguistic modes to engage formal, code-execution pathways in the context of the experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論能力と計画タスクに苦労することがある。
LLM推論を支援するために多くのプロンプト技術、特にCoT(Chain-of-Thought)が開発されているが、LLMの推論能力が疑問視されているため、これらの技術も精査されている。
本稿では,認知科学と教育科学の分野から借用して,これまで実証された教育分野での成功を超えて,TMK(Task-Method-Knowledge)フレームワークがLCM推論能力を向上させることができるかどうかを検討する。
TMKフレームワークは、因果的、遠隔的、階層的推論構造を捕捉するユニークな能力と、その明示的なタスク分解機構を組み合わせることで、言語モデル推論の欠陥に対処するのに特に適しており、HTNやBDIのような他の階層的フレームワークとは異なり、TMKは何をすべきか、どのように行うべきかだけでなく、なぜアクションを取るのかという明示的な表現を提供する。
この研究は、PlanBenchベンチマークを用いてTMKを評価し、推論と計画能力をテストするBlocksworldドメインに注目し、TMK構造化プロンプトが複雑な計画問題を管理可能なサブタスクに分解するのに役立つかどうかを調べる。
結果は推論モデルにおける顕著な性能逆転も強調する。
TMKプロンプトにより、不透明でシンボリックなタスク(プランベンチのBlocksworldのランサムバージョン)で97.3\%の精度で推論モデルが実現できる(31.5\%)が、これはセマンティック近似とシンボリック操作のギャップを埋める可能性を示唆している。
この結果から,TMK は文脈だけでなく,標準言語モードからモデルを引き離す機構として機能し,実験の文脈において形式的,コード実行経路を関与させる可能性が示唆された。
関連論文リスト
- FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation [13.855534865501369]
小型言語モデル(SLM)は、その効率的で低レイテンシな推論のため、コスト感受性とリソース制限の設定に魅力的である。
本稿では,SLMに戦略的思考パターンを付加したモジュラー推論フレームワークであるFutureMindを提案する。
論文 参考訳(メタデータ) (2026-02-01T13:26:04Z) - iCLP: Large Language Model Reasoning with Implicit Cognition Latent Planning [28.763018368302117]
大規模言語モデル(LLM)は、問題解決において、信頼性の高いステップバイステップ推論を行うことができる。
幻覚が原因で 正確な 効果的なテキストプランを作成することは 困難です
LLMが適応的に潜在計画を生成するための新しいフレームワークiCLPを提案する。
論文 参考訳(メタデータ) (2025-12-30T06:19:04Z) - Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning [23.185497225384207]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。
論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
論文 参考訳(メタデータ) (2025-09-14T02:42:34Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。