論文の概要: Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation
- arxiv url: http://arxiv.org/abs/2507.02253v1
- Date: Thu, 03 Jul 2025 03:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.481045
- Title: Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation
- Title(参考訳): LLM計画のスケールアップ:パラメトリック問題生成と厳密な評価のためのNL2FLOW
- Authors: Jungkoo Kang,
- Abstract要約: NL2FLOWは計画問題をパラメトリックに生成する完全に自動化されたシステムである。
最高の問題モデルは、有効な計画を生成するのに86%の成功を収めた。
自然言語を計画表現に翻訳する成功率が最も高かったのは,有効な計画を直接生成する率よりも低かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in enhancing large language model (LLM) planning and reasoning capabilities is significantly hampered by the bottleneck of scalable, reliable data generation and evaluation. To overcome this, I introduce NL2FLOW, a fully automated system for parametrically generating planning problems - expressed in natural language, a structured intermediate representation, and formal PDDL - and rigorously evaluating the quality of generated plans. I demonstrate NL2FLOW's capabilities by generating a dataset of 2296 problems in the automated workflow generation domain and evaluating multiple open-sourced, instruct-tuned LLMs. My results reveal that the highest performing models achieved 86% success in generating valid plans and 69% in generating optimal plans, specifically for problems with feasible solutions. Regression analysis shows that the influence of problem characteristics on plan generation is contingent on both model and prompt design. Notably, I observed that the highest success rate for translating natural language into a JSON representation of a plan was lower than the highest rate of generating a valid plan directly. This suggests that unnecessarily decomposing the reasoning task - introducing intermediate translation steps - may actually degrade performance, implying a benefit to models capable of reasoning directly from natural language to action. As I scale LLM reasoning to increasingly complex problems, the bottlenecks and sources of error within these systems will inevitably shift. Therefore, a dynamic understanding of these limitations - and the tools to systematically reveal them - will be crucial for unlocking the full potential of LLMs as intelligent problem solvers.
- Abstract(参考訳): 大規模言語モデル(LLM)の計画と推論能力の向上の進展は、スケーラブルで信頼性の高いデータ生成と評価のボトルネックによって著しく妨げられている。
この問題を解決するために,NL2FLOWは自然言語,構造化中間表現,形式的なPDDLで表現されたパラメトリックな計画問題を自動生成するシステムであり,生成した計画の質を厳格に評価する。
NL2FLOWの能力は、自動化ワークフロー生成領域で2296の課題のデータセットを生成し、複数のオープンソースでインストラクトしたLLMを評価することで実証する。
得られた結果から, 有効な計画生成に86%, 最適な計画生成に69%を達成できた。
回帰分析により、計画生成における問題特性の影響はモデルとプロンプト設計の両方に影響を及ぼすことが示された。
特に,計画のJSON表現に自然言語を翻訳する成功率は,計画を直接生成する成功率よりも低かった。
これは、推論タスク(中間翻訳ステップの導入)を不要に分解することは、実際にパフォーマンスを低下させ、自然言語からアクションへ直接推論できるモデルに利益をもたらすことを示唆している。
LLM推論をますます複雑な問題にスケールするにつれ、システム内のボトルネックやエラーの原因は必然的に変化します。
したがって、これらの制限とそれらを体系的に明らかにするツールを動的に理解することは、知的問題解決者としてのLLMの可能性を解き明かす上で非常に重要である。
関連論文リスト
- Addressing the Challenges of Planning Language Generation [6.209697341255856]
我々は,500億パラメータ未満のオープンソースモデルを用いて,PDDL生成パイプラインを8種類設計し,評価する。
その結果,高リソース言語ラッパーや文法付き制約付き復号法などの直感的な手法は性能を低下させるが,解法や計画検証器からのフィードバックによる修正などの推論時間スケーリング手法は性能を2倍以上に抑えることがわかった。
論文 参考訳(メタデータ) (2025-05-20T17:25:23Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。
我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-10-22T17:13:38Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。