Fugu-MT 論文翻訳(概要): On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)

論文の概要: On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)

arxiv url: http://arxiv.org/abs/2302.06706v1
Date: Mon, 13 Feb 2023 21:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-15 17:07:31.394094
Title: On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)
Title（参考訳）: 大規模言語モデルの計画能力について(提案ベンチマークによる批判的考察)
Authors: Karthik Valmeekam, Sarath Sreedharan, Matthew Marquez, Alberto Olmo, Subbarao Kambhampati
Abstract要約: 我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。 LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
参考スコア（独自算出の注目度）: 30.223130782579336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) how good LLMs are by themselves in generating and validating simple plans in commonsense planning tasks (of the type that humans are generally quite good at) and (2) how good LLMs are in being a source of heuristic guidance for other agents--either AI planners or human planners--in their planning tasks. To investigate these questions in a systematic rather than anecdotal manner, we start by developing a benchmark suite based on the kinds of domains employed in the International Planning Competition. On this benchmark, we evaluate LLMs in three modes: autonomous, heuristic and human-in-the-loop. Our results show that LLM's ability to autonomously generate executable plans is quite meager, averaging only about 3% success rate. The heuristic and human-in-the-loop modes show slightly more promise. In addition to these results, we also make our benchmark and evaluation tools available to support investigations by research community.
Abstract（参考訳）: 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。本研究の目的は,1)コモンセンス計画タスクにおける簡単な計画の作成と検証において,LLMがいかに優れているかを評価すること,2)AIプランナーやヒューマンプランナーが計画タスクにおいて,他のエージェントに対するヒューリスティックガイダンスの源泉として,LLMがいかに優れているかを評価することである。これらの質問を体系的に検討するため,我々は,国際計画コンペティションで採用されるドメインの種類を基準としたベンチマークスイートの開発から始める。本ベンチマークでは,LLMを自律性,ヒューリスティック性,ループ内人間性という3つのモードで評価する。以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%に過ぎなかった。ヒューリスティックと人間のループモードは、もう少し期待できる。これらの結果に加えて,研究コミュニティによる調査を支援するためのベンチマークと評価ツールも提供する。

関連論文リスト

PlanGenLLMs: A Modern Survey of LLM Planning Capabilities [12.322175348741435]
LLMは計画を生成する大きな可能性を秘めており、初期世界の状態を望ましい目標状態に変換する。これらのシステムの多くは特定の問題に適応しており、それらを比較したり、新しいタスクに最適なアプローチを決定することは困難である。我々の調査は、このギャップを埋めるために、現在のLLMプランナの概要を概観することを目的としている。 1990年、カルタムとウィルキンスによる基礎研究に基づいて、完全性、実行可能性、最適性、表現、一般化、効率の6つの重要な性能基準を検証した。
論文参考訳（メタデータ） (2025-02-16T17:54:57Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
LLMs Can Plan Only If We Tell Them [16.593590353705697]
大規模言語モデル (LLM) は自然言語処理や推論において重要な機能を示している。本稿では,LLMが人間と競合する長期計画を独立に生成できるかどうかを考察する。
論文参考訳（メタデータ） (2025-01-23T10:46:14Z)
Query-Efficient Planning with Language Models [8.136901056728945]
複雑な環境での計画では、エージェントがスタートからゴールまでの一連のアクションを見つけるために、ワールドモデルを効率的にクエリする必要がある。最近の研究によると、Large Language Models(LLM)は、将来有望な状態を探索し、世界からのフィードバックに適応することによって、計画に役立つ可能性がある。両アプローチが同等のベースラインで改善されているのに対して,LLMを生成プランナーとして使用すると,相互作用が大幅に減少することを示す。
論文参考訳（メタデータ） (2024-12-09T02:51:21Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example [3.102303947219617]
大規模言語モデル(LLM)は、自律エージェントを人工知能(AGI)に近づけたそこで本研究では,エージェントが複数の制約を満たして正確な計画を生成する,現実的なベンチマークであるTravelPlannerを用いて検討を行った。
論文参考訳（メタデータ） (2024-08-12T17:39:01Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文参考訳（メタデータ） (2024-05-23T06:03:19Z)
Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文参考訳（メタデータ） (2024-02-05T04:25:24Z)
SayCanPay: Heuristic Planning with Large Language Models using Learnable Domain Knowledge [14.024233628092167]
大規模言語モデル(LLM)は、その膨大な「世界知識」により、優れた計画能力を示した。しかし、近年の進歩にもかかわらず、実現可能な(手頃な)プランと費用対効果(プラン長)の両方のプランの獲得は依然として課題である。これは、ドメイン知識(PDDLのようなアクションモデルで形式化された)と検索を使って実現可能な最適な計画を生成する計画手法とは対照的である。
論文参考訳（メタデータ） (2023-08-24T09:47:28Z)
On the Planning Abilities of Large Language Models : A Critical Investigation [34.262740442260515]
我々は,LLMがコモンセンス計画タスクにおいて自律的に計画を作成する上での有効性を評価する。 LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善することができることを示す。
論文参考訳（メタデータ） (2023-05-25T06:32:23Z)
PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。 PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文参考訳（メタデータ） (2022-06-21T16:15:27Z)
ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文参考訳（メタデータ） (2022-05-03T14:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。