論文の概要: REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation
- arxiv url: http://arxiv.org/abs/2503.22122v1
- Date: Fri, 28 Mar 2025 03:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:33:00.321899
- Title: REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation
- Title(参考訳): REMAC:長軸ロボットマニピュレーションのための自己反射・自己進化型多エージェント協調
- Authors: Puzhen Yuan, Angyuan Ma, Yunchao Yao, Huaxiu Yao, Masayoshi Tomizuka, Mingyu Ding,
- Abstract要約: 本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
- 参考スコア(独自算出の注目度): 57.628771707989166
- License:
- Abstract: Vision-language models (VLMs) have demonstrated remarkable capabilities in robotic planning, particularly for long-horizon tasks that require a holistic understanding of the environment for task decomposition. Existing methods typically rely on prior environmental knowledge or carefully designed task-specific prompts, making them struggle with dynamic scene changes or unexpected task conditions, e.g., a robot attempting to put a carrot in the microwave but finds the door was closed. Such challenges underscore two critical issues: adaptability and efficiency. To address them, in this work, we propose an adaptive multi-agent planning framework, termed REMAC, that enables efficient, scene-agnostic multi-robot long-horizon task planning and execution through continuous reflection and self-evolution. REMAC incorporates two key modules: a self-reflection module performing pre-condition and post-condition checks in the loop to evaluate progress and refine plans, and a self-evolvement module dynamically adapting plans based on scene-specific reasoning. It offers several appealing benefits: 1) Robots can initially explore and reason about the environment without complex prompt design. 2) Robots can keep reflecting on potential planning errors and adapting the plan based on task-specific insights. 3) After iterations, a robot can call another one to coordinate tasks in parallel, maximizing the task execution efficiency. To validate REMAC's effectiveness, we build a multi-agent environment for long-horizon robot manipulation and navigation based on RoboCasa, featuring 4 task categories with 27 task styles and 50+ different objects. Based on it, we further benchmark state-of-the-art reasoning models, including DeepSeek-R1, o3-mini, QwQ, and Grok3, demonstrating REMAC's superiority by boosting average success rates by 40% and execution efficiency by 52.7% over the single robot baseline.
- Abstract(参考訳): 視覚言語モデル(VLM)はロボット計画において、特にタスク分解のための環境の全体的理解を必要とする長期的タスクにおいて顕著な能力を示した。
既存の方法は、従来の環境知識や、注意深く設計されたタスク固有のプロンプトに依存しており、ダイナミックなシーンの変化や予期せぬタスク条件、例えば、電子レンジにニンジンを入れようとするロボットに苦労するが、ドアは閉じられている。
このような課題は、適応性と効率性の2つの重要な課題を浮き彫りにする。
そこで本研究では,ReMACと呼ばれる適応型マルチエージェント・プランニング・フレームワークを提案する。
REMACには2つの重要なモジュールが組み込まれており、ループ内でプレコンディションとポストコンディションのチェックを行い、進捗と計画の洗練を評価する。
それはいくつかの魅力的な利益をもたらす。
1)ロボットは、複雑な急進的な設計をすることなく、まず環境を探索し、推論することができる。
2)ロボットは、潜在的な計画上の誤りを振り返り、タスク固有の洞察に基づいて計画を適用することができる。
3) 反復作業後、ロボットが別のロボットを呼び出してタスクを並列に調整し、タスク実行効率を最大化する。
REMACの有効性を検証するために,RoboCasaに基づく長距離ロボット操作とナビゲーションのためのマルチエージェント環境を構築し,27のタスクスタイルと50以上の異なるオブジェクトを持つ4つのタスクカテゴリを特徴とする。
これに基づいて、DeepSeek-R1、o3-mini、QwQ、Grok3といった最先端の推論モデルをさらにベンチマークし、単一のロボットベースラインに対して平均成功率を40%、実行効率を52.7%向上させることで、REMACの優位性を示す。
関連論文リスト
- COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Robots Can Multitask Too: Integrating a Memory Architecture and LLMs for Enhanced Cross-Task Robot Action Generation [13.181465089984567]
大規模言語モデル(LLM)は、ロボットの知覚と身体能力による常識推論の基盤となるロボット応用に最近使用されている。
本稿では,タスク間を効果的に切り替える一方で,タスク間動作を生成するためのLLMをメモリプロセスに組み込むことに対処する。
その結果,5つのロボットタスクのベースラインよりも性能が大幅に向上し,ロボットの動作と適応タスク実行の知覚を組み合わせたLLMにメモリを統合する可能性が示された。
論文 参考訳(メタデータ) (2024-07-18T13:38:21Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。