Fugu-MT 論文翻訳(概要): ACPBench: Reasoning about Action, Change, and Planning

論文の概要: ACPBench: Reasoning about Action, Change, and Planning

arxiv url: http://arxiv.org/abs/2410.05669v1
Date: Tue, 22 Oct 2024 17:16:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 17:19:21.105417
Title: ACPBench: Reasoning about Action, Change, and Planning
Title（参考訳）: ACPBench: 行動、変化、計画に関する推論
Authors: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi,
Abstract要約: ACPBenchは、計画分野における推論タスクを評価するためのベンチマークである。このコレクションは、形式言語で記述されたプランニングドメインから構築されている。
参考スコア（独自算出の注目度）: 22.47015814897628
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is an increasing body of work using Large Language Models (LLMs) as agents for orchestrating workflows and making decisions in domains that require planning and multi-step reasoning. As a result, it is imperative to evaluate LLMs on core skills required for planning. In this work, we present ACPBench, a benchmark for evaluating the reasoning tasks in the field of planning. The benchmark consists of 7 reasoning tasks over 13 planning domains. The collection is constructed from planning domains described in a formal language. This allows us to synthesize problems with provably correct solutions across many tasks and domains. Further, it allows us the luxury of scale without additional human effort, i.e., many additional problems can be created automatically. Our extensive evaluation of 22 open-sourced and frontier LLMs highlight the significant gap in the reasoning capability of the LLMs. The average accuracy of one of the best-performing frontier LLMs -- GPT-4o on these tasks can fall as low as 52.50% ACPBench collection is available at https://ibm.github.io/ACPBench.
Abstract（参考訳）: 大規模言語モデル(LLM)をワークフローのオーケストレーションや、計画や多段階の推論を必要とする領域での意思決定のエージェントとして使用する作業が増えている。その結果,LLMを計画に必要なコアスキルに基づいて評価することが不可欠である。本研究では,計画分野における推論タスクを評価するためのベンチマークであるACPBenchを紹介する。ベンチマークは、13の計画ドメインに対する7つの推論タスクで構成されている。このコレクションは、形式言語で記述されたプランニングドメインから構築されている。これにより、多くのタスクやドメインにまたがって、確実に正しいソリューションで問題を合成できる。さらに、人間の努力を伴わずにスケールの豪華さ、すなわち、多くの問題を自動生成することができる。 22個のオープンソースおよびフロンティアLCMの広範囲な評価は,LLMの推論能力の重大なギャップを浮き彫りにしている。最高のパフォーマンスを持つフロンティアLCMの1つの平均精度 -- GPT-4oは、52.50%のACPBenchコレクションがhttps://ibm.github.io/ACPBenchで利用可能である。

関連論文リスト

How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文参考訳（メタデータ） (2025-09-18T17:56:30Z)
Seemingly Simple Planning Problems are Computationally Challenging: The Countdown Game [26.665033202052257]
本稿では,Countdownと呼ばれるゲームを中心とした計画ベンチマークを作成する手順を提案する。本稿では,この課題が,計画能力評価のための理想的なベンチマークと関連するデシラタの多くにどのように適合するかを論じる。その結果、24 Game(Countdownの特殊な場合)のような他の領域とは異なり、提案した動的ベンチマークは既存のLCMベースのアプローチでは極めて困難であることが判明した。
論文参考訳（メタデータ） (2025-08-04T21:01:03Z)
ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning [22.47015814897628]
ACPBenchデータセットは、効率的な計画に必要なアトミック推論タスクを提供する。このデータセットは、複雑なプラン生成タスクを別々のアトミック推論タスクに蒸留することを目的としている。 ACPBench Hard は ACPBench の生成版であり,モデルが答える必要のある質問に対してオープンに回答する。
論文参考訳（メタデータ） (2025-03-31T17:58:25Z)
Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code [8.971234046933349]
大規模言語モデル(LLM)は、計画タスクの詳細な定義を伴っても、確実に計画に失敗する。サイズが大きくなるような配布外タスクであっても、LCMを使って正確な計画を生成する方法を示す。
論文参考訳（メタデータ） (2025-03-24T15:50:20Z)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。 LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳（メタデータ） (2025-01-30T22:21:12Z)
Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。 LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。 GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLが平均83.7%,86.8%の最適速度で達成できることを実証した。
論文参考訳（メタデータ） (2024-10-15T23:20:54Z)
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文参考訳（メタデータ） (2024-09-30T03:58:43Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Plan of Thoughts: Heuristic-Guided Problem Solving with Large Language Models [0.0]
言語モデルを用いた多段階問題解決のための計画的アプローチを定式化する。ゲーム・オブ・24のタスクにおいて,既存のアプローチに比べて89.4%の優れた成功率を示す。
論文参考訳（メタデータ） (2024-04-29T18:51:17Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。 FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-04T05:21:36Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)
PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。 PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文参考訳（メタデータ） (2022-06-21T16:15:27Z)
Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning [14.663216851932646]
言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
論文参考訳（メタデータ） (2022-05-19T17:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。