論文の概要: PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks
- arxiv url: http://arxiv.org/abs/2411.00081v1
- Date: Thu, 31 Oct 2024 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:54.093154
- Title: PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks
- Title(参考訳): PartNR: マルチエージェントタスクの計画と推論のためのベンチマーク
- Authors: Matthew Chang, Gunjan Chhablani, Alexander Clegg, Mikael Dallaire Cote, Ruta Desai, Michal Hlavac, Vladimir Karashchuk, Jacob Krantz, Roozbeh Mottaghi, Priyam Parashar, Siddharth Patki, Ishita Prasad, Xavier Puig, Akshara Rai, Ram Ramrakhya, Daniel Tran, Joanne Truong, John M. Turner, Eric Undersander, Tsung-Yen Yang,
- Abstract要約: 我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
- 参考スコア(独自算出の注目度): 57.89516354418451
- License:
- Abstract: We present a benchmark for Planning And Reasoning Tasks in humaN-Robot collaboration (PARTNR) designed to study human-robot coordination in household activities. PARTNR tasks exhibit characteristics of everyday tasks, such as spatial, temporal, and heterogeneous agent capability constraints. We employ a semi-automated task generation pipeline using Large Language Models (LLMs), incorporating simulation in the loop for grounding and verification. PARTNR stands as the largest benchmark of its kind, comprising 100,000 natural language tasks, spanning 60 houses and 5,819 unique objects. We analyze state-of-the-art LLMs on PARTNR tasks, across the axes of planning, perception and skill execution. The analysis reveals significant limitations in SoTA models, such as poor coordination and failures in task tracking and recovery from errors. When LLMs are paired with real humans, they require 1.5x as many steps as two humans collaborating and 1.1x more steps than a single human, underscoring the potential for improvement in these models. We further show that fine-tuning smaller LLMs with planning data can achieve performance on par with models 9 times larger, while being 8.6x faster at inference. Overall, PARTNR highlights significant challenges facing collaborative embodied agents and aims to drive research in this direction.
- Abstract(参考訳): 本稿では,HumaN-Robot collaboration (PARTNR) における計画と推論タスクのベンチマークについて述べる。
PartNRタスクは、空間的、時間的、不均一なエージェント能力の制約など、日常的なタスクの特徴を示す。
我々は,Large Language Models (LLMs) を用いた半自動タスク生成パイプラインを用いて,グラウンドと検証のループにシミュレーションを取り入れた。
PartNRは10万の自然言語タスクで構成され、60軒の家と5,819のユニークなオブジェクトで構成されている。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析する。
この分析は、タスクトラッキングにおける調整不良や失敗、エラーからの回復など、SoTAモデルにおける重大な制限を明らかにしている。
LLMを実際の人間と組み合わせる場合、2人の人間が協力する1.1倍のステップと1.5倍のステップが必要であり、これらのモデルの改善の可能性を示している。
さらに,計画データを用いた小型LCMの微調整により,推測の8.6倍の速度でモデルに匹敵する性能が得られることを示す。
全体として、ParticleNRは、協力的なエンボディエージェントが直面する重要な課題を強調し、この方向の研究を促進することを目指している。
関連論文リスト
- COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - Large Language Models as Zero-Shot Human Models for Human-Robot Interaction [12.455647753787442]
大型言語モデル(LLM)は、人間とロボットの相互作用のためのゼロショット人間モデルとして機能する。
LLMは目的のモデルに匹敵する性能を達成する。
シミュレーションされた信頼に基づくテーブルクリーニングタスクのケーススタディを提案する。
論文 参考訳(メタデータ) (2023-03-06T23:16:24Z) - It Takes Two: Learning to Plan for Human-Robot Cooperative Carrying [0.6981715773998527]
本研究では,協調型ロボットチームにおけるテーブルキャリング作業における現実的な動作計画の予測手法を提案する。
変動リカレントニューラルネットワーク(VRNN)を用いて、時間とともに人間のロボットチームの軌道の変動をモデル化する。
本モデルでは, ベースライン型集中型サンプリングベースプランナに比べて, より人間的な動きを生成できることを示す。
論文 参考訳(メタデータ) (2022-09-26T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。