論文の概要: Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
- arxiv url: http://arxiv.org/abs/2407.03321v1
- Date: Wed, 3 Jul 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:05:47.091052
- Title: Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
- Title(参考訳): Planetarium: 構造化計画言語へのテキスト翻訳のための厳格なベンチマーク
- Authors: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach,
- Abstract要約: benchmarkNameは、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの性能を評価するために設計されたベンチマークである。
13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを,さまざまな難易度で提示する。
- 参考スコア(独自算出の注目度): 20.62336315814875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of $132,037$ text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, $87.6\%$ of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, $82.2\%$ are valid, solve-able problems, but only $35.1\%$ are semantically correct, highlighting the need for a more rigorous benchmark for this problem.
- Abstract(参考訳): 最近の多くの研究は、計画問題に言語モデルを用いている。
計画課題の自然言語記述を,計画領域定義言語(PDDL)などの構造化計画言語に翻訳することに焦点を当てた研究の1行である。
このアプローチは有望だが、生成したPDDLコードの品質を正確に測定することは、依然として重大な課題である。
まず、生成したPDDLコードを計画立案者を用いて評価し、その問題が計画者によって解決できるかどうかを確認する。
この方法は、言語モデルがタスクの自然言語記述と一致しない有効なPDDLコードを生成するため、不十分である。
第2に、既存の評価セットは、しばしば、基礎的な真理PDDLによく似た計画タスクの自然言語記述を持ち、課題の軽減を図っている。
このギャップを埋めるために、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの能力を評価するために設計されたベンチマークである \benchmarkName を導入する。
まず,言語モデルが生成するPDDL符号の正しさを,基底真理PDDLと柔軟に比較して厳密に評価するPDDL同値アルゴリズムを作成する。
次に、13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを、さまざまな難易度で提示する。
最後に、このタスクの複雑さを明らかにするために、いくつかのAPIアクセスおよびオープンウェイト言語モデルを評価する。
例えば、GPT-4oが生成したPDDL問題記述の87.6.%$は構文解析可能であり、82.2.%$は有効であるが、意味論的に正しいのは35.1.%$のみであり、この問題に対するより厳密なベンチマークの必要性を強調している。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions [8.004470925893957]
ドメインに依存しない初めてのオフラインLCM駆動計画システムであるNL2Planを提案する。
我々はNL2Planを4つの計画領域で評価し、15のタスクのうち10を解くことを発見した。
エンド・ツー・エンドモードでのNL2Planの使用に加えて、ユーザは中間結果の検査と修正が可能である。
論文 参考訳(メタデータ) (2024-05-07T11:27:13Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Real-World Planning with PDDL+ and Beyond [55.73913765642435]
我々は、軽量さ、単純さ、そして最も重要なのは適応性を強調するために作られた新しいPDDL+プランナーであるNyxを紹介する。
Nyxは、ある種のAIプランニングを必要とする事実上の現実世界のアプリケーションに合わせることができ、現実の問題を解決するための計画手法をより広く採用するための道を開くことができる。
論文 参考訳(メタデータ) (2024-02-19T07:35:49Z) - TIC: Translate-Infer-Compile for accurate "text to plan" using LLMs and Logical Representations [0.0]
本研究では,自然言語計画タスク要求の計画作成の問題について検討する。
本手法は,LLMを用いて自然言語タスク記述の解釈可能な中間表現を生成する。
中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。
論文 参考訳(メタデータ) (2024-02-09T18:39:13Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - HDDL 2.1: Towards Defining a Formalism and a Semantics for Temporal HTN
Planning [64.07762708909846]
現実世界のアプリケーションは、リッチで多様な自動計画問題をモデル化する必要があります。
階層的タスクネットワーク(HTN)形式は、数値的および時間的制約を伴う計画問題の表現を許さない。
本稿では,HDDLとこれらの運用ニーズのギャップを埋めるとともに,PDDL 2.1からインスピレーションを得てHDDLを拡張することを提案する。
論文 参考訳(メタデータ) (2023-06-12T18:21:23Z) - Leveraging Pre-trained Large Language Models to Construct and Utilize
World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:15Z) - Planning with Complex Data Types in PDDL [2.7412662946127755]
本稿では,集合,配列,レコード,ユニオンといった複雑なデータ型をサポートする複雑なソフトウェアシステムのモデリング言語について検討する。
我々は、この表現をさらにPDDLにマッピングし、ドメインに依存しないPDDLプランナーで使用する。
論文 参考訳(メタデータ) (2022-12-29T21:19:22Z) - HDDL 2.1: Towards Defining an HTN Formalism with Time [0.0]
産業やロボティクスなどの計画の現実的な応用には、リッチで多様なシナリオをモデル化する必要がある。
それらの解像度は通常、協調された同時アクション実行を必要とする。
いくつかのケースでは、そのような計画問題は階層的な方法で自然に分解され、階層的なタスクネットワーク形式によって表現される。
本稿では,HDDLの拡張に必要なセマンティクスと構文について論じるとともに,地球観測衛星計画問題のモデル化について述べる。
論文 参考訳(メタデータ) (2022-06-03T21:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。