論文の概要: RoCo: Dialectic Multi-Robot Collaboration with Large Language Models
- arxiv url: http://arxiv.org/abs/2307.04738v1
- Date: Mon, 10 Jul 2023 17:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:14:26.604279
- Title: RoCo: Dialectic Multi-Robot Collaboration with Large Language Models
- Title(参考訳): RoCo: 大規模言語モデルを用いた対話型マルチロボットコラボレーション
- Authors: Zhao Mandi, Shreeya Jain, Shuran Song
- Abstract要約: 我々は,事前学習された大規模言語モデル(LLM)のパワーを利用する,マルチロボット協調のための新しいアプローチを提案する。
そこで,RoCoはロボットエージェントとコミュニケーションし,協調してタスクを完了させることができる。
- 参考スコア(独自算出の注目度): 13.260289557301688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach to multi-robot collaboration that harnesses the
power of pre-trained large language models (LLMs) for both high-level
communication and low-level path planning. Robots are equipped with LLMs to
discuss and collectively reason task strategies. They then generate sub-task
plans and task space waypoint paths, which are used by a multi-arm motion
planner to accelerate trajectory planning. We also provide feedback from the
environment, such as collision checking, and prompt the LLM agents to improve
their plan and waypoints in-context. For evaluation, we introduce RoCoBench, a
6-task benchmark covering a wide range of multi-robot collaboration scenarios,
accompanied by a text-only dataset for agent representation and reasoning. We
experimentally demonstrate the effectiveness of our approach -- it achieves
high success rates across all tasks in RoCoBench and adapts to variations in
task semantics. Our dialog setup offers high interpretability and flexibility
-- in real world experiments, we show RoCo easily incorporates
human-in-the-loop, where a user can communicate and collaborate with a robot
agent to complete tasks together. See project website
https://project-roco.github.io for videos and code.
- Abstract(参考訳): 本稿では,高レベル通信と低レベル経路計画の両方において,事前学習された大規模言語モデル(LLM)のパワーを利用するマルチロボット協調手法を提案する。
ロボットはLLMを備えており、タスク戦略を議論し、集合的に推論する。
その後、サブタスクプランとタスクスペースのウェイポイントパスを生成し、マルチアームモーションプランナーが軌道計画の高速化に使用する。
また、衝突チェックなどの環境からのフィードバックも提供し、LLMエージェントに対して、コンテキスト内のプランやウェイポイントを改善するよう促す。
評価のために,エージェント表現と推論のためのテキストのみのデータセットを伴って,幅広いマルチロボットコラボレーションシナリオをカバーする6タスクベンチマークであるRoCoBenchを紹介した。
我々は、RoCoBenchのすべてのタスクで高い成功率を達成し、タスクセマンティクスのバリエーションに適応する、我々のアプローチの有効性を実験的に実証する。我々のダイアログ設定は、高い解釈可能性と柔軟性を提供する。実世界では、RoCoは、ユーザーがロボットエージェントとコミュニケーションし、協力してタスクを完了できる、ループ内の人間を簡単に組み込むことを示した。
プロジェクト web サイト https://project-roco.github.io を参照。
関連論文リスト
- On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [64.54156041189324]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as
Translators and Checkers [22.10114075378893]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models [27.318186938382233]
本研究では,大規模言語モデル(LLM)を具体化エージェントのプランナーとして用いることに焦点を当てた。
そこで本研究では,大規模言語モデルのパワーを活かして少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
論文 参考訳(メタデータ) (2022-12-08T05:46:32Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。