論文の概要: Knowledge Model Prompting Increases LLM Performance on Planning Tasks
- arxiv url: http://arxiv.org/abs/2602.03900v1
- Date: Tue, 03 Feb 2026 09:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.213442
- Title: Knowledge Model Prompting Increases LLM Performance on Planning Tasks
- Title(参考訳): 計画課題におけるLLM性能向上のための知識モデルの提案
- Authors: Erik Goh, John Kos, Ashok Goel,
- Abstract要約: 本稿では,タスク・メソッド・知識・フレームワークが大規模言語モデルの推論能力を向上できるかどうかを検討する。
この研究はPlanBenchベンチマークを用いてTMKを評価し、推論と計画能力をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLM) can struggle with reasoning ability and planning tasks. Many prompting techniques have been developed to assist with LLM reasoning, notably Chain-of-Thought (CoT); however, these techniques, too, have come under scrutiny as LLMs' ability to reason at all has come into question. Borrowing from the domain of cognitive and educational science, this paper investigates whether the Task-Method-Knowledge (TMK) framework can improve LLM reasoning capabilities beyond its previously demonstrated success in educational applications. The TMK framework's unique ability to capture causal, teleological, and hierarchical reasoning structures, combined with its explicit task decomposition mechanisms, makes it particularly well-suited for addressing language model reasoning deficiencies, and unlike other hierarchical frameworks such as HTN and BDI, TMK provides explicit representations of not just what to do and how to do it, but also why actions are taken. The study evaluates TMK by experimenting on the PlanBench benchmark, focusing on the Blocksworld domain to test for reasoning and planning capabilities, examining whether TMK-structured prompting can help language models better decompose complex planning problems into manageable sub-tasks. Results also highlight significant performance inversion in reasoning models. TMK prompting enables the reasoning model to achieve up to an accuracy of 97.3\% on opaque, symbolic tasks (Random versions of Blocksworld in PlanBench) where it previously failed (31.5\%), suggesting the potential to bridge the gap between semantic approximation and symbolic manipulation. Our findings suggest that TMK functions not merely as context, but also as a mechanism that steers reasoning models away from their default linguistic modes to engage formal, code-execution pathways in the context of the experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論能力と計画タスクに苦労することがある。
LLM推論を支援するために多くのプロンプト技術、特にCoT(Chain-of-Thought)が開発されているが、LLMの推論能力が疑問視されているため、これらの技術も精査されている。
本稿では,認知科学と教育科学の分野から借用して,これまで実証された教育分野での成功を超えて,TMK(Task-Method-Knowledge)フレームワークがLCM推論能力を向上させることができるかどうかを検討する。
TMKフレームワークは、因果的、遠隔的、階層的推論構造を捕捉するユニークな能力と、その明示的なタスク分解機構を組み合わせることで、言語モデル推論の欠陥に対処するのに特に適しており、HTNやBDIのような他の階層的フレームワークとは異なり、TMKは何をすべきか、どのように行うべきかだけでなく、なぜアクションを取るのかという明示的な表現を提供する。
この研究は、PlanBenchベンチマークを用いてTMKを評価し、推論と計画能力をテストするBlocksworldドメインに注目し、TMK構造化プロンプトが複雑な計画問題を管理可能なサブタスクに分解するのに役立つかどうかを調べる。
結果は推論モデルにおける顕著な性能逆転も強調する。
TMKプロンプトにより、不透明でシンボリックなタスク(プランベンチのBlocksworldのランサムバージョン)で97.3\%の精度で推論モデルが実現できる(31.5\%)が、これはセマンティック近似とシンボリック操作のギャップを埋める可能性を示唆している。
この結果から,TMK は文脈だけでなく,標準言語モードからモデルを引き離す機構として機能し,実験の文脈において形式的,コード実行経路を関与させる可能性が示唆された。
関連論文リスト
- Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models [10.629439705877054]
本研究では,大規模言語モデル (LLM) が真の心の理論 (ToM) 能力を示すかどうかを考察する。
ToMデータセットには,古典的かつ摂動的な疑似信念タスクを含む,手作りでリッチな注釈付きデータセットが導入されている。
タスク摂動下でのToM能力の急激な低下を示すとともに,ToMの頑健な形態が存在するかどうかを疑問視する。
論文 参考訳(メタデータ) (2026-02-25T16:24:35Z) - FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation [13.855534865501369]
小型言語モデル(SLM)は、その効率的で低レイテンシな推論のため、コスト感受性とリソース制限の設定に魅力的である。
本稿では,SLMに戦略的思考パターンを付加したモジュラー推論フレームワークであるFutureMindを提案する。
論文 参考訳(メタデータ) (2026-02-01T13:26:04Z) - iCLP: Large Language Model Reasoning with Implicit Cognition Latent Planning [28.763018368302117]
大規模言語モデル(LLM)は、問題解決において、信頼性の高いステップバイステップ推論を行うことができる。
幻覚が原因で 正確な 効果的なテキストプランを作成することは 困難です
LLMが適応的に潜在計画を生成するための新しいフレームワークiCLPを提案する。
論文 参考訳(メタデータ) (2025-12-30T06:19:04Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning [23.185497225384207]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。
論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
論文 参考訳(メタデータ) (2025-09-14T02:42:34Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。