Fugu-MT 論文翻訳(概要): MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds

論文の概要: MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds

arxiv url: http://arxiv.org/abs/2312.12891v1
Date: Wed, 20 Dec 2023 10:04:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:03:11.758617
Title: MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds
Title（参考訳）: MinePlanner: Minecraftの世界における長期計画のベンチマーク
Authors: William Hill, Ireton Liu, Anita De Mello Koch, Damion Harvey, George Konidaris, Steven James
Abstract要約: Minecraftゲームに基づくタスク計画のための新しいベンチマークを提案する。私たちのベンチマークには45のタスクが含まれていますが、新しいMinecraftタスクの命題インスタンスと数値インスタンスの両方を自動生成する機能も備えています。我々は、これらのタスクに関する数値的および命題的計画システムをベンチマークし、その結果、現在最先端のプランナーは、我々の新しいベンチマークによって進められた多くの課題に対処できないことを示した。
参考スコア（独自算出の注目度）: 11.503230935942504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new benchmark for planning tasks based on the Minecraft game. Our benchmark contains 45 tasks overall, but also provides support for creating both propositional and numeric instances of new Minecraft tasks automatically. We benchmark numeric and propositional planning systems on these tasks, with results demonstrating that state-of-the-art planners are currently incapable of dealing with many of the challenges advanced by our new benchmark, such as scaling to instances with thousands of objects. Based on these results, we identify areas of improvement for future planners. Our framework is made available at https://github.com/IretonLiu/mine-pddl/.
Abstract（参考訳）: 我々はminecraftゲームに基づくタスク計画のための新しいベンチマークを提案する。私たちのベンチマークには45のタスクが含まれていますが、新しいMinecraftタスクの命題インスタンスと数値インスタンスの両方を自動生成する機能も備えています。我々はこれらのタスクに関する数値的および命題的計画システムをベンチマークし、その結果、現在最先端のプランナーは、数千のオブジェクトを持つインスタンスへのスケーリングなど、新しいベンチマークによって進められた多くの課題に対処できないことを示した。これらの結果に基づき,今後の計画立案者に対する改善の分野を特定する。私たちのフレームワークはhttps://github.com/IretonLiu/mine-pddl/で利用可能です。

関連論文リスト

Destination-to-Chutes Task Mapping Optimization for Multi-Robot Coordination in Robotic Sorting Systems [63.08747450107808]
本研究では,ロボットソーティングシステムのスループット向上のために,タスクマッピングの宛先最適化について検討する。現実世界のRSSの複雑さのため、高品質なタスクマッピングを見つけることは難しい。
論文参考訳（メタデータ） (2025-10-03T19:49:37Z)
Seemingly Simple Planning Problems are Computationally Challenging: The Countdown Game [26.665033202052257]
本稿では,Countdownと呼ばれるゲームを中心とした計画ベンチマークを作成する手順を提案する。本稿では,この課題が,計画能力評価のための理想的なベンチマークと関連するデシラタの多くにどのように適合するかを論じる。その結果、24 Game(Countdownの特殊な場合)のような他の領域とは異なり、提案した動的ベンチマークは既存のLCMベースのアプローチでは極めて困難であることが判明した。
論文参考訳（メタデータ） (2025-08-04T21:01:03Z)
PLANET: A Collection of Benchmarks for Evaluating LLMs' Planning Capabilities [7.36760703426119]
計画はエージェントとエージェントAIの中心である。これまでのところ、既存の計画ベンチマークに対する包括的な理解は欠如しているようだ。本稿では,アルゴリズム開発によく使用されるテストベッドを特定するための,様々な計画ベンチマークについて検討する。
論文参考訳（メタデータ） (2025-04-21T00:02:50Z)
Exploring 3D Reasoning-Driven Planning: From Implicit Human Intentions to Route-Aware Activity Planning [103.24305074625106]
本研究では,暗黙的な指示から意図した活動を導き,ステップ間の経路や計画を伴うステップに分解する新しい3Dタスクである3D推論駆動計画を提案する。まずReasonPlan3Dという,多種多様な3Dシーンを多種多様な暗黙の指示でカバーする大規模ベンチマークを構築した。第二に、複数のステップにまたがってコンテキスト整合性を持つプログレッシブプラン生成を導入する新しいフレームワークを設計する。
論文参考訳（メタデータ） (2025-03-17T09:33:58Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
Plancraft: an evaluation dataset for planning with LLM agents [13.729144770991876]
LLMエージェントのためのマルチモーダル評価データセットであるPlancraftを提案する。 Plancraftにはテキストのみのインターフェースとマルチモーダルのインターフェースがあり、MinecraftのクラフトGUIをベースとしている。オープンソースとクローズドソースの両方のLCMとタスク戦略をベンチマークし、そのパフォーマンスを手作りプランナーと比較する。
論文参考訳（メタデータ） (2024-12-30T15:58:41Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Neural MP: A Generalist Neural Motion Planner [75.82675575009077]
運動計画問題にデータ駆動学習を大規模に適用することで,これを実現する。提案手法は, シミュレーションの複雑なシーンを多数構築し, モーションプランナーから専門家のデータを収集し, 反応的なジェネラリストポリシーに抽出する。我々は,4つの異なる環境における64の動作計画タスクについて,その方法の徹底的な評価を行う。
論文参考訳（メタデータ） (2024-09-09T17:59:45Z)
A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文参考訳（メタデータ） (2024-08-11T14:57:57Z)
Look Further Ahead: Testing the Limits of GPT-4 in Path Planning [9.461626534488117]
大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
論文参考訳（メタデータ） (2024-06-17T18:12:56Z)
NATURAL PLAN: Benchmarking LLMs on Natural Language Planning [109.73382347588417]
本稿では,3つのタスク – トリップ計画,ミーティング計画,カレンダースケジューリング – を含む,自然言語の現実的な計画ベンチマークであるNATURAL PLANを紹介する。我々は、Google Flights、Google Maps、Google Calendarなどのツールからの出力を、モデルに対するコンテキストとして提供することによって、タスクに関する完全な情報を備えたLCMの計画能力に焦点をあてる。
論文参考訳（メタデータ） (2024-06-06T21:27:35Z)
LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents [2.8927500190704567]
大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
論文参考訳（メタデータ） (2024-02-13T02:28:57Z)
AutoPlanBench: Automatically generating benchmarks for LLM planners from PDDL [52.005042190810116]
PDDLで書かれたベンチマークをテキスト記述に変換する新しい手法であるAutoPlanBenchを提案する。優れたLCMプランナーは計画タスクをうまくこなすが、他のプランナーは現在の手法には及ばない。
論文参考訳（メタデータ） (2023-11-16T11:55:27Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
PlanT: Explainable Planning Transformers via Object-Level Representations [64.93938686101309]
PlanTは、自動運転のコンテキストにおける計画のための新しいアプローチである。 PlanTは、コンパクトなオブジェクトレベルの入力表現を持つ模倣学習に基づいている。この結果から,PlanTは幾何学的に距離をおいても,現場で最も関連性の高い物体に焦点を合わせることが可能であることが示唆された。
論文参考訳（メタデータ） (2022-10-25T17:59:46Z)
PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。 PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文参考訳（メタデータ） (2022-06-21T16:15:27Z)
Planning with Learned Object Importance in Large Problem Instances using Graph Neural Networks [28.488201307961624]
現実の計画問題は、数百から数千ものオブジェクトを巻き込むことが多い。単一推論パスにおけるオブジェクトの重要性を予測するためのグラフニューラルネットワークアーキテクチャを提案する。提案手法では,プランナと遷移モデルをブラックボックスとして扱い,既製のプランナで使用することができる。
論文参考訳（メタデータ） (2020-09-11T18:55:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。