Fugu-MT 論文翻訳(概要): Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

論文の概要: Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

arxiv url: http://arxiv.org/abs/2507.02253v1
Date: Thu, 03 Jul 2025 03:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 15:37:15.481045
Title: Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation
Title（参考訳）: LLM計画のスケールアップ:パラメトリック問題生成と厳密な評価のためのNL2FLOW
Authors: Jungkoo Kang,
Abstract要約: NL2FLOWは計画問題をパラメトリックに生成する完全に自動化されたシステムである。最高の問題モデルは、有効な計画を生成するのに86%の成功を収めた。自然言語を計画表現に翻訳する成功率が最も高かったのは,有効な計画を直接生成する率よりも低かった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Progress in enhancing large language model (LLM) planning and reasoning capabilities is significantly hampered by the bottleneck of scalable, reliable data generation and evaluation. To overcome this, I introduce NL2FLOW, a fully automated system for parametrically generating planning problems - expressed in natural language, a structured intermediate representation, and formal PDDL - and rigorously evaluating the quality of generated plans. I demonstrate NL2FLOW's capabilities by generating a dataset of 2296 problems in the automated workflow generation domain and evaluating multiple open-sourced, instruct-tuned LLMs. My results reveal that the highest performing models achieved 86% success in generating valid plans and 69% in generating optimal plans, specifically for problems with feasible solutions. Regression analysis shows that the influence of problem characteristics on plan generation is contingent on both model and prompt design. Notably, I observed that the highest success rate for translating natural language into a JSON representation of a plan was lower than the highest rate of generating a valid plan directly. This suggests that unnecessarily decomposing the reasoning task - introducing intermediate translation steps - may actually degrade performance, implying a benefit to models capable of reasoning directly from natural language to action. As I scale LLM reasoning to increasingly complex problems, the bottlenecks and sources of error within these systems will inevitably shift. Therefore, a dynamic understanding of these limitations - and the tools to systematically reveal them - will be crucial for unlocking the full potential of LLMs as intelligent problem solvers.
Abstract（参考訳）: 大規模言語モデル(LLM)の計画と推論能力の向上の進展は、スケーラブルで信頼性の高いデータ生成と評価のボトルネックによって著しく妨げられている。この問題を解決するために,NL2FLOWは自然言語,構造化中間表現,形式的なPDDLで表現されたパラメトリックな計画問題を自動生成するシステムであり,生成した計画の質を厳格に評価する。 NL2FLOWの能力は、自動化ワークフロー生成領域で2296の課題のデータセットを生成し、複数のオープンソースでインストラクトしたLLMを評価することで実証する。得られた結果から, 有効な計画生成に86%, 最適な計画生成に69%を達成できた。回帰分析により、計画生成における問題特性の影響はモデルとプロンプト設計の両方に影響を及ぼすことが示された。特に,計画のJSON表現に自然言語を翻訳する成功率は,計画を直接生成する成功率よりも低かった。これは、推論タスク(中間翻訳ステップの導入)を不要に分解することは、実際にパフォーマンスを低下させ、自然言語からアクションへ直接推論できるモデルに利益をもたらすことを示唆している。 LLM推論をますます複雑な問題にスケールするにつれ、システム内のボトルネックやエラーの原因は必然的に変化します。したがって、これらの制限とそれらを体系的に明らかにするツールを動的に理解することは、知的問題解決者としてのLLMの可能性を解き明かす上で非常に重要である。

関連論文リスト

PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文参考訳（メタデータ） (2025-07-10T07:30:44Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
Addressing the Challenges of Planning Language Generation [6.209697341255856]
我々は,500億パラメータ未満のオープンソースモデルを用いて,PDDL生成パイプラインを8種類設計し,評価する。その結果,高リソース言語ラッパーや文法付き制約付き復号法などの直感的な手法は性能を低下させるが,解法や計画検証器からのフィードバックによる修正などの推論時間スケーリング手法は性能を2倍以上に抑えることがわかった。
論文参考訳（メタデータ） (2025-05-20T17:25:23Z)
Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文参考訳（メタデータ） (2025-03-10T13:35:51Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Zero-shot Robotic Manipulation with Language-guided Instruction and Formal Task Planning [16.89900521727246]
本稿では,言語誘導型シンボリックタスク計画(LM-SymOpt)フレームワークの最適化を提案する。大規模言語モデルからの世界的知識と公式な推論を組み合わせた最初のエキスパートフリーな計画フレームワークです。実験の結果,LM-SymOpt は既存の LLM ベースの計画手法よりも優れていた。
論文参考訳（メタデータ） (2025-01-25T13:33:22Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文参考訳（メタデータ） (2024-10-22T17:13:38Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [39.53593677934238]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。本稿では、自然言語の表現性と形式言語の精度を統合することで、LLMをベースとしたエージェントのための新しい「フォーマルLLM」フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-01T17:30:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。