Fugu-MT 論文翻訳(概要): Robotouille: An Asynchronous Planning Benchmark for LLM Agents

論文の概要: Robotouille: An Asynchronous Planning Benchmark for LLM Agents

arxiv url: http://arxiv.org/abs/2502.05227v1
Date: Thu, 06 Feb 2025 05:50:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.131188
Title: Robotouille: An Asynchronous Planning Benchmark for LLM Agents
Title（参考訳）: Robotouille: LLMエージェントの非同期計画ベンチマーク
Authors: Gonzalo Gonzalez-Pumariega, Leong Su Yean, Neha Sunkara, Sanjiban Choudhury,
Abstract要約: 非同期計画は、時間遅延、多種多様な長期タスクの理由付け、他のエージェントとの協力を必要とするエージェントにとって不可欠である。我々は、長時間の非同期シナリオを処理するエージェントの能力をテストするために設計されたベンチマーク環境であるRobotouilleを紹介する。結果から,ReAct(gpt4-o)は同期タスクでは47%,非同期タスクでは11%に過ぎなかった。
参考スコア（独自算出の注目度）: 7.574421886354134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective asynchronous planning, or the ability to efficiently reason and plan over states and actions that must happen in parallel or sequentially, is essential for agents that must account for time delays, reason over diverse long-horizon tasks, and collaborate with other agents. While large language model (LLM) agents show promise in high-level task planning, current benchmarks focus primarily on short-horizon tasks and do not evaluate such asynchronous planning capabilities. We introduce Robotouille, a challenging benchmark environment designed to test LLM agents' ability to handle long-horizon asynchronous scenarios. Our synchronous and asynchronous datasets capture increasingly complex planning challenges that go beyond existing benchmarks, requiring agents to manage overlapping tasks and interruptions. Our results show that ReAct (gpt4-o) achieves 47% on synchronous tasks but only 11% on asynchronous tasks, highlighting significant room for improvement. We further analyze failure modes, demonstrating the need for LLM agents to better incorporate long-horizon feedback and self-audit their reasoning during task execution. Code is available at https://github.com/portal-cornell/robotouille.
Abstract（参考訳）: 効果的な非同期計画(英: Effective asynchronous planning)または、並列またはシーケンシャルに発生しなければならない状態や行動に対して効率的に推論および計画を行う能力は、時間遅延、多種多様な長期タスクに対する推論、および他のエージェントとの協力を必要とするエージェントにとって不可欠である。大規模言語モデル(LLM)エージェントはハイレベルなタスク計画において有望であるが、現在のベンチマークは主に短期的なタスクに焦点を当てており、そのような非同期な計画能力は評価していない。我々は,LLMエージェントが長時間の非同期シナリオを処理する能力をテストするために設計された,挑戦的なベンチマーク環境であるRobotouilleを紹介する。同期と非同期のデータセットは、既存のベンチマークを超えた、ますます複雑な計画課題を捉え、重複するタスクと割り込みを管理するエージェントを必要とします。結果から,ReAct(gpt4-o)は同期タスクでは47%,非同期タスクでは11%に過ぎなかった。我々はさらに障害モードを分析し、LLMエージェントが長時間のフィードバックをうまく取り入れ、タスク実行中に推論を自己監査する必要性を実証する。コードはhttps://github.com/portal-cornell/robotouille.comで入手できる。

関連論文リスト

Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents [15.26802977779826]
M1-Parallelは、異なるソリューションパスを明らかにするために、複数のマルチエージェントチームを並行して実行するフレームワークである。早期終端を持つM1-Parallelは精度を保ちながら最大2.2倍のスピードアップを達成することを示す。さらに,多種多様な実行計画を奨励する戦略についても検討するが,反復サンプリングによる追加的なパフォーマンス向上は見つからない。
論文参考訳（メタデータ） (2025-07-11T18:09:22Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文参考訳（メタデータ） (2025-06-17T05:46:52Z)
Exploring GPT-4 for Robotic Agent Strategy with Real-Time State Feedback and a Reactive Behaviour Framework [0.0]
我々は,新しい大規模言語モデル(LLM)駆動行動法の概念実証として,ヒューマノイドロボットと実世界におけるGPT-4の利用について検討する。問題は、LLMに目標を与え、LLMはその目標を達成するためにサブタスクを出力することである。本稿では,安全性,タスク間の遷移,タスクの時間的地平線,状態フィードバックに関する現実的な懸念に対処する手法を提案する。
論文参考訳（メタデータ） (2025-03-30T21:53:28Z)
REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文参考訳（メタデータ） (2025-03-28T03:51:40Z)
Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback [12.600525101342026]
本稿では,言語条件のロングホライズンロボット操作のためのデータに依存しないフレームワークであるDAHLIAを紹介する。 LLMは、リアルタイムタスク計画と実行のための大きな言語モデルである。本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
論文参考訳（メタデータ） (2025-03-27T20:32:58Z)
Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions [56.88110850242265]
本稿では,現実の調理シナリオに基づいた新しいベンチマークフレームワークRecipe2Planを紹介する。従来のベンチマークとは異なり、Recipe2Planは並列タスク実行による調理時間を最適化するためにエージェントに挑戦する。
論文参考訳（メタデータ） (2025-03-04T03:27:02Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。 PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。 PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文参考訳（メタデータ） (2024-05-26T10:33:17Z)
Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-05T08:26:33Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文参考訳（メタデータ） (2020-05-27T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。