Fugu-MT 論文翻訳(概要): Generating Symbolic World Models via Test-time Scaling of Large Language Models

論文の概要: Generating Symbolic World Models via Test-time Scaling of Large Language Models

arxiv url: http://arxiv.org/abs/2502.04728v1
Date: Fri, 07 Feb 2025 07:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:33.059396
Title: Generating Symbolic World Models via Test-time Scaling of Large Language Models
Title（参考訳）: 大規模言語モデルのテスト時間スケーリングによる記号的世界モデルの生成
Authors: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu,
Abstract要約: 計画ドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。提案手法は,まずまずBest-of-Nサンプリング手法を用いて初期解の質を向上し,その解を言語化された機械学習で微妙に洗練する。本手法はPDDL ドメインの生成において O1-mini よりも優れ,2つのタスクで50% 以上の成功率を達成した。
参考スコア（独自算出の注目度）: 28.258707611580643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving complex planning problems requires Large Language Models (LLMs) to explicitly model the state transition to avoid rule violations, comply with constraints, and ensure optimality-a task hindered by the inherent ambiguity of natural language. To overcome such ambiguity, Planning Domain Definition Language (PDDL) is leveraged as a planning abstraction that enables precise and formal state descriptions. With PDDL, we can generate a symbolic world model where classic searching algorithms, such as A*, can be seamlessly applied to find optimal plans. However, directly generating PDDL domains with current LLMs remains an open challenge due to the lack of PDDL training data. To address this challenge, we propose to scale up the test-time computation of LLMs to enhance their PDDL reasoning capabilities, thereby enabling the generation of high-quality PDDL domains. Specifically, we introduce a simple yet effective algorithm, which first employs a Best-of-N sampling approach to improve the quality of the initial solution and then refines the solution in a fine-grained manner with verbalized machine learning. Our method outperforms o1-mini by a considerable margin in the generation of PDDL domain, achieving over 50% success rate on two tasks (i.e., generating PDDL domains from natural language description or PDDL problems). This is done without requiring additional training. By taking advantage of PDDL as state abstraction, our method is able to outperform current state-of-the-art methods on almost all competition-level planning tasks.
Abstract（参考訳）: 複雑な計画問題の解決には、ルール違反を回避し、制約を遵守し、自然言語固有の曖昧さによって妨げられる最適性を保証するために、状態遷移を明示的にモデル化する大規模言語モデル(LLM)が必要である。このような曖昧さを克服するために、プランニングドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。 PDDLにより、A*のような古典的な探索アルゴリズムをシームレスに適用して最適な計画を見つけることができる象徴的世界モデルを生成することができる。しかし、PDDLのトレーニングデータが不足しているため、現在のLDMでPDDLドメインを直接生成することは未解決の課題である。この課題に対処するため,我々はLDMのテスト時間計算をスケールアップし,PDDL推論能力を向上し,高品質なPDDLドメインの生成を可能にすることを提案する。具体的には,まず最初にBest-of-Nサンプリング手法を用いて初期解の質を向上し,その解を言語化された機械学習で微妙に洗練する,単純で効果的なアルゴリズムを提案する。提案手法は,2つのタスク(すなわち,自然言語記述やPDDL問題からPDDLドメインを生成する)で50%以上の成功率を達成するために,PDDLドメインの生成においてかなりの差でo1-miniを上回った。これは追加の訓練を必要とせずに行われる。 PDDLを状態抽象化として活用することにより、ほぼ全ての競合レベルの計画タスクにおいて、最先端の手法よりも優れた性能を発揮する。

関連論文リスト

Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
An Extensive Evaluation of PDDL Capabilities in off-the-shelf LLMs [11.998185452551878]
大規模言語モデル(LLM)は、コード生成とチェーン・オブ・シークレット推論に習熟している。本研究では,計画ドメイン定義言語(PDDL)の理解と生成のためのLLMの可能性を評価する。
論文参考訳（メタデータ） (2025-02-27T15:13:07Z)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。 LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳（メタデータ） (2025-01-30T22:21:12Z)
On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、接地された環境で検証可能な計画を作成するのに失敗する。新たな作業のラインは、計画領域の形式表現を生成するフォーマライザとしてLLMを使うことの成功を示しています。我々は,PDDLとして記述を効果的に定式化できるモデルが十分に大きいことを観察し,それらを直接的に生成する計画よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-13T05:50:22Z)
Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models [7.3238629831871735]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示している。潜在的な解決策として、計画ドメイン定義言語(PDDL)へのプランニングの問題が提案されている。 LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。
論文参考訳（メタデータ） (2024-07-17T19:50:51Z)
Generating consistent PDDL domains with Large Language Models [4.8551773468225745]
LLM(Large Language Models)は、自然言語のドメイン記述をPDDLマークアップに変換する能力を持つ。生成プロセス中に自動整合性チェックを行うことにより,LCM生成のPDDLモデルの品質を大幅に向上させる新しい概念を提案する。提案した整合性チェック戦略は、生成したモデルの絶対的正当性を保証することはできないが、ループ内の人間から期待される補正努力の量を減らす貴重なフィードバック源として機能することができる。
論文参考訳（メタデータ） (2024-04-11T13:48:48Z)
PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文参考訳（メタデータ） (2024-02-29T19:40:25Z)
Real-World Planning with PDDL+ and Beyond [55.73913765642435]
我々は、軽量さ、単純さ、そして最も重要なのは適応性を強調するために作られた新しいPDDL+プランナーであるNyxを紹介する。 Nyxは、ある種のAIプランニングを必要とする事実上の現実世界のアプリケーションに合わせることができ、現実の問題を解決するための計画手法をより広く採用するための道を開くことができる。
論文参考訳（メタデータ） (2024-02-19T07:35:49Z)
Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning [59.543858889996024]
大規模言語モデル(LLM)は、様々なNLPタスクに革命をもたらした。 LLMを利用してPDDL入力からNLプロンプトを自動的に生成する方法を示す。
論文参考訳（メタデータ） (2023-11-16T11:55:27Z)
HDDL 2.1: Towards Defining a Formalism and a Semantics for Temporal HTN Planning [64.07762708909846]
現実世界のアプリケーションは、リッチで多様な自動計画問題をモデル化する必要があります。階層的タスクネットワーク(HTN)形式は、数値的および時間的制約を伴う計画問題の表現を許さない。本稿では,HDDLとこれらの運用ニーズのギャップを埋めるとともに,PDDL 2.1からインスピレーションを得てHDDLを拡張することを提案する。
論文参考訳（メタデータ） (2023-06-12T18:21:23Z)
Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文参考訳（メタデータ） (2023-05-24T08:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。