Fugu-MT 論文翻訳(概要): Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

論文の概要: Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

arxiv url: http://arxiv.org/abs/2507.02253v3
Date: Thu, 07 Aug 2025 12:29:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 14:01:13.968959
Title: Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation
Title（参考訳）: LLM計画のスケールアップ:パラメトリック問題生成と厳密な評価のためのNL2FLOW
Authors: Jungkoo Kang,
Abstract要約: NL2Flowは計画問題をパラメトリックに生成するための完全に自動化されたシステムである。自動ワークフロー生成における2296の低微分問題データセットを生成する。タスク固有の最適化やアーキテクチャの変更なしに、複数のオープンソースでインストラクトしたLLMを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Effective agent performance relies on the ability to compose tools and agents into effective workflows. However, progress in Large Language Model (LLM) planning and reasoning is limited by the scarcity of scalable, reliable evaluation data. This study addresses this limitation by identifying a suitable workflow domain for LLM application. I introduce NL2Flow, a fully automated system for parametrically generating planning problems, which are expressed in natural language, a structured intermediate representation, and formal PDDL, and rigorously evaluating the quality of generated plans. NL2Flow generates a dataset of 2296 low-difficulty problems in automated workflow generation and evaluates multiple open-sourced, instruct-tuned LLMs without task-specific optimization or architectural modifications. Results reveal that the highest performing model achieved 86% success in generating valid plans and 69% in generating optimal plans, specifically for problems with feasible plans. Regression analysis shows that the influence of problem characteristics on plan generation is contingent on both model and prompt design. To investigate the potential of LLMs as natural language-to-JSON translators for workflow definition, and to facilitate integration with downstream symbolic computation tools and a symbolic planner, I evaluated the LLM's translation performance on natural language workflow descriptions. I observed that translating natural language into a JSON representation of a workflow problem yielded a lower success rate than generating a plan directly, suggesting that unnecessary decomposition of the reasoning task may degrade performance and highlighting the benefit of models capable of reasoning directly from natural language to action. As LLM reasoning scales to increasingly complex problems, understanding the shifting bottlenecks and sources of error within these systems will be crucial.
Abstract（参考訳）: 効果的なエージェントのパフォーマンスは、ツールとエージェントを効果的なワークフローに構成する能力に依存する。しかし、大規模言語モデル(LLM)の計画と推論の進歩は、スケーラブルで信頼性の高い評価データの不足によって制限される。本研究では、LLMアプリケーションに適したワークフロードメインを特定することで、この制限に対処する。 NL2Flowは、自然言語、構造化中間表現、形式的なPDDLで表現され、生成した計画の品質を厳格に評価するパラメトリックな計画問題をパラメトリックに生成するシステムである。 NL2Flowは、自動化ワークフロー生成における2296の低分散問題のデータセットを生成し、タスク固有の最適化やアーキテクチャの変更なしに、複数のオープンソース、インストラクションされたLLMを評価する。その結果, 有効な計画作成に86%, 最適な計画生成に69%の成果が得られた。回帰分析により、計画生成における問題特性の影響はモデルとプロンプト設計の両方に影響を及ぼすことが示された。ワークフロー定義のための自然言語-JSONトランスレータとしてのLLMの可能性について検討し、下流のシンボル計算ツールとシンボルプランナとの統合を容易にするために、自然言語ワークフロー記述に対するLLMの翻訳性能を評価した。自然言語をワークフロー問題のJSON表現に変換することで、計画を直接生成するよりも成功率が低くなり、不必要な推論タスクの分解によって性能が低下し、自然言語からアクションへ直接推論できるモデルの利点が強調される可能性が示唆された。 LLM推論がますます複雑な問題にスケールするにつれて、システム内のボトルネックやエラーの原因のシフトを理解することが重要である。

関連論文リスト

PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文参考訳（メタデータ） (2025-07-10T07:30:44Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
Addressing the Challenges of Planning Language Generation [6.209697341255856]
我々は,500億パラメータ未満のオープンソースモデルを用いて,PDDL生成パイプラインを8種類設計し,評価する。その結果,高リソース言語ラッパーや文法付き制約付き復号法などの直感的な手法は性能を低下させるが,解法や計画検証器からのフィードバックによる修正などの推論時間スケーリング手法は性能を2倍以上に抑えることがわかった。
論文参考訳（メタデータ） (2025-05-20T17:25:23Z)
Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文参考訳（メタデータ） (2025-03-10T13:35:51Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Zero-shot Robotic Manipulation with Language-guided Instruction and Formal Task Planning [16.89900521727246]
本稿では,言語誘導型シンボリックタスク計画(LM-SymOpt)フレームワークの最適化を提案する。大規模言語モデルからの世界的知識と公式な推論を組み合わせた最初のエキスパートフリーな計画フレームワークです。実験の結果,LM-SymOpt は既存の LLM ベースの計画手法よりも優れていた。
論文参考訳（メタデータ） (2025-01-25T13:33:22Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文参考訳（メタデータ） (2024-10-22T17:13:38Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [39.53593677934238]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。本稿では、自然言語の表現性と形式言語の精度を統合することで、LLMをベースとしたエージェントのための新しい「フォーマルLLM」フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-01T17:30:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。