論文の概要: CRISP: Complex Reasoning with Interpretable Step-based Plans
- arxiv url: http://arxiv.org/abs/2507.08037v1
- Date: Wed, 09 Jul 2025 11:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.114725
- Title: CRISP: Complex Reasoning with Interpretable Step-based Plans
- Title(参考訳): CRISP: 解釈可能なステップベースプランによる複雑な推論
- Authors: Matan Vetzler, Koren Lazar, Guy Uziel, Eran Hirsch, Ateret Anaby-Tavor, Leshem Choshen,
- Abstract要約: 数学的推論とコード生成のための高レベルプランのデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を紹介する。
CRISP上で小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを少数ショットプロンプトで作成できることを実証する。
- 参考スコア(独自算出の注目度): 15.656686375199921
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) underscore the need for stronger reasoning capabilities to solve complex problems effectively. While Chain-of-Thought (CoT) reasoning has been a step forward, it remains insufficient for many domains. A promising alternative is explicit high-level plan generation, but existing approaches largely assume that LLMs can produce effective plans through few-shot prompting alone, without additional training. In this work, we challenge this assumption and introduce CRISP (Complex Reasoning with Interpretable Step-based Plans), a multi-domain dataset of high-level plans for mathematical reasoning and code generation. The plans in CRISP are automatically generated and rigorously validated--both intrinsically, using an LLM as a judge, and extrinsically, by evaluating their impact on downstream task performance. We demonstrate that fine-tuning a small model on CRISP enables it to generate higher-quality plans than much larger models using few-shot prompting, while significantly outperforming Chain-of-Thought reasoning. Furthermore, our out-of-domain evaluation reveals that fine-tuning on one domain improves plan generation in the other, highlighting the generalizability of learned planning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な問題を効果的に解決する強力な推論能力の必要性を浮き彫りにしている。
CoT(Chain-of-Thought)推論は一歩前進したが、多くのドメインではまだ不十分である。
有望な代替案として、明確な高レベルプラン生成があるが、既存のアプローチでは、LLMは追加の訓練なしに、数発のプロンプトだけで効果的プランを作成できると想定されている。
本研究では、この仮定に挑戦し、数学的推論とコード生成のための高レベルプランのマルチドメインデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を導入する。
CRISPの計画は、LLMを審査員として使用し、下流タスクのパフォーマンスへの影響を評価することによって、内在的に、厳密に検証され、自動的に生成される。
CRISPで小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを生成できることを示す。
さらに、ドメイン外評価では、一方のドメインの微調整が他方のドメインの計画生成を改善し、学習した計画能力の一般化性を強調している。
関連論文リスト
- PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation [0.0]
NL2FLOWは計画問題をパラメトリックに生成する完全に自動化されたシステムである。
最高の問題モデルは、有効な計画を生成するのに86%の成功を収めた。
自然言語を計画表現に翻訳する成功率が最も高かったのは,有効な計画を直接生成する率よりも低かった。
論文 参考訳(メタデータ) (2025-07-03T03:02:49Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。
我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-10-22T17:13:38Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。