論文の概要: Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
- arxiv url: http://arxiv.org/abs/2407.03321v1
- Date: Wed, 3 Jul 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:05:47.091052
- Title: Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
- Title(参考訳): Planetarium: 構造化計画言語へのテキスト翻訳のための厳格なベンチマーク
- Authors: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach,
- Abstract要約: benchmarkNameは、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの性能を評価するために設計されたベンチマークである。
13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを,さまざまな難易度で提示する。
- 参考スコア(独自算出の注目度): 20.62336315814875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of $132,037$ text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, $87.6\%$ of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, $82.2\%$ are valid, solve-able problems, but only $35.1\%$ are semantically correct, highlighting the need for a more rigorous benchmark for this problem.
- Abstract(参考訳): 最近の多くの研究は、計画問題に言語モデルを用いている。
計画課題の自然言語記述を,計画領域定義言語(PDDL)などの構造化計画言語に翻訳することに焦点を当てた研究の1行である。
このアプローチは有望だが、生成したPDDLコードの品質を正確に測定することは、依然として重大な課題である。
まず、生成したPDDLコードを計画立案者を用いて評価し、その問題が計画者によって解決できるかどうかを確認する。
この方法は、言語モデルがタスクの自然言語記述と一致しない有効なPDDLコードを生成するため、不十分である。
第2に、既存の評価セットは、しばしば、基礎的な真理PDDLによく似た計画タスクの自然言語記述を持ち、課題の軽減を図っている。
このギャップを埋めるために、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの能力を評価するために設計されたベンチマークである \benchmarkName を導入する。
まず,言語モデルが生成するPDDL符号の正しさを,基底真理PDDLと柔軟に比較して厳密に評価するPDDL同値アルゴリズムを作成する。
次に、13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを、さまざまな難易度で提示する。
最後に、このタスクの複雑さを明らかにするために、いくつかのAPIアクセスおよびオープンウェイト言語モデルを評価する。
例えば、GPT-4oが生成したPDDL問題記述の87.6.%$は構文解析可能であり、82.2.%$は有効であるが、意味論的に正しいのは35.1.%$のみであり、この問題に対するより厳密なベンチマークの必要性を強調している。
関連論文リスト
- Generating Symbolic World Models via Test-time Scaling of Large Language Models [28.258707611580643]
計画ドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。
提案手法は,まずまずBest-of-Nサンプリング手法を用いて初期解の質を向上し,その解を言語化された機械学習で微妙に洗練する。
本手法はPDDL ドメインの生成において O1-mini よりも優れ,2つのタスクで50% 以上の成功率を達成した。
論文 参考訳(メタデータ) (2025-02-07T07:52:25Z) - Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching [0.9217021281095907]
本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。
ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。
本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。
論文 参考訳(メタデータ) (2025-01-29T14:04:54Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - TIC: Translate-Infer-Compile for accurate "text to plan" using LLMs and Logical Representations [0.0]
本研究では,自然言語計画タスク要求の計画作成の問題について検討する。
本手法は,LLMを用いて自然言語タスク記述の解釈可能な中間表現を生成する。
中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。
論文 参考訳(メタデータ) (2024-02-09T18:39:13Z) - Language and Task Arithmetic with Parameter-Efficient Layers for Zero-Shot Summarization [126.96113831681338]
本稿では,言語やタスク特化パラメータを構成することで,ゼロショットの言語間移動を改善することを提案する。
本手法は,言語とタスクPEFTモジュールを要素演算により構成し,ラベルなしデータと英語ラベル付きデータを活用する。
論文 参考訳(メタデータ) (2023-11-15T20:04:58Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Planning with Complex Data Types in PDDL [2.7412662946127755]
本稿では,集合,配列,レコード,ユニオンといった複雑なデータ型をサポートする複雑なソフトウェアシステムのモデリング言語について検討する。
我々は、この表現をさらにPDDLにマッピングし、ドメインに依存しないPDDLプランナーで使用する。
論文 参考訳(メタデータ) (2022-12-29T21:19:22Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。