Fugu-MT 論文翻訳(概要): REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation

論文の概要: REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation

arxiv url: http://arxiv.org/abs/2503.22122v1
Date: Fri, 28 Mar 2025 03:51:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.556083
Title: REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation
Title（参考訳）: REMAC:長軸ロボットマニピュレーションのための自己反射・自己進化型多エージェント協調
Authors: Puzhen Yuan, Angyuan Ma, Yunchao Yao, Huaxiu Yao, Masayoshi Tomizuka, Mingyu Ding,
Abstract要約: 本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
参考スコア（独自算出の注目度）: 57.628771707989166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have demonstrated remarkable capabilities in robotic planning, particularly for long-horizon tasks that require a holistic understanding of the environment for task decomposition. Existing methods typically rely on prior environmental knowledge or carefully designed task-specific prompts, making them struggle with dynamic scene changes or unexpected task conditions, e.g., a robot attempting to put a carrot in the microwave but finds the door was closed. Such challenges underscore two critical issues: adaptability and efficiency. To address them, in this work, we propose an adaptive multi-agent planning framework, termed REMAC, that enables efficient, scene-agnostic multi-robot long-horizon task planning and execution through continuous reflection and self-evolution. REMAC incorporates two key modules: a self-reflection module performing pre-condition and post-condition checks in the loop to evaluate progress and refine plans, and a self-evolvement module dynamically adapting plans based on scene-specific reasoning. It offers several appealing benefits: 1) Robots can initially explore and reason about the environment without complex prompt design. 2) Robots can keep reflecting on potential planning errors and adapting the plan based on task-specific insights. 3) After iterations, a robot can call another one to coordinate tasks in parallel, maximizing the task execution efficiency. To validate REMAC's effectiveness, we build a multi-agent environment for long-horizon robot manipulation and navigation based on RoboCasa, featuring 4 task categories with 27 task styles and 50+ different objects. Based on it, we further benchmark state-of-the-art reasoning models, including DeepSeek-R1, o3-mini, QwQ, and Grok3, demonstrating REMAC's superiority by boosting average success rates by 40% and execution efficiency by 52.7% over the single robot baseline.
Abstract（参考訳）: 視覚言語モデル(VLM)はロボット計画において、特にタスク分解のための環境の全体的理解を必要とする長期的タスクにおいて顕著な能力を示した。既存の方法は、従来の環境知識や、注意深く設計されたタスク固有のプロンプトに依存しており、ダイナミックなシーンの変化や予期せぬタスク条件、例えば、電子レンジにニンジンを入れようとするロボットに苦労するが、ドアは閉じられている。このような課題は、適応性と効率性の2つの重要な課題を浮き彫りにする。そこで本研究では,ReMACと呼ばれる適応型マルチエージェント・プランニング・フレームワークを提案する。 REMACには2つの重要なモジュールが組み込まれており、ループ内でプレコンディションとポストコンディションのチェックを行い、進捗と計画の洗練を評価する。それはいくつかの魅力的な利益をもたらす。 1)ロボットは、複雑な急進的な設計をすることなく、まず環境を探索し、推論することができる。 2)ロボットは、潜在的な計画上の誤りを振り返り、タスク固有の洞察に基づいて計画を適用することができる。 3) 反復作業後、ロボットが別のロボットを呼び出してタスクを並列に調整し、タスク実行効率を最大化する。 REMACの有効性を検証するために,RoboCasaに基づく長距離ロボット操作とナビゲーションのためのマルチエージェント環境を構築し,27のタスクスタイルと50以上の異なるオブジェクトを持つ4つのタスクカテゴリを特徴とする。これに基づいて、DeepSeek-R1、o3-mini、QwQ、Grok3といった最先端の推論モデルをさらにベンチマークし、単一のロボットベースラインに対して平均成功率を40%、実行効率を52.7%向上させることで、REMACの優位性を示す。

関連論文リスト

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文参考訳（メタデータ） (2025-06-07T06:15:49Z)
RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文参考訳（メタデータ） (2025-05-03T06:17:18Z)
A Task and Motion Planning Framework Using Iteratively Deepened AND/OR Graph Networks [3.635602838654497]
本稿では,AND/ORグラフネットワークに基づくタスクと動作計画の統合手法を提案する。タスク・アンド・モーション・プランニング問題(TAMP)の異なるクラスの実装に活用する。このアプローチは、シミュレーションと実際のデュアルアームロボットマニピュレータ、すなわちRethink RoboticsのBaxterで評価され、検証されている。
論文参考訳（メタデータ） (2025-03-10T17:28:22Z)
Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation [2.434849352801735]
VLM(Vision-Language Models)は、ロボット操作において顕著な可能性を示す。しかし、複雑な微調整タスクを高速かつ高精度で実行する際の課題は継続する。本稿では,ロボットの高速かつ高精度かつ誤り訂正可能な微調整を可能にするプログレッシブVLM計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-07T00:55:42Z)
Together We Rise: Optimizing Real-Time Multi-Robot Task Allocation using Coordinated Heterogeneous Plays [5.206057210246862]
本稿では,動的倉庫環境におけるリアルタイムマルチロボットタスク割り当て問題に対処する。マルチエージェント強化学習フレームワークであるMRTAgentを紹介する。安全なナビゲーションには、修正線形二次コントローラ(LQR)アプローチが使用される。
論文参考訳（メタデータ） (2025-02-22T04:59:27Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Robots Can Multitask Too: Integrating a Memory Architecture and LLMs for Enhanced Cross-Task Robot Action Generation [13.181465089984567]
大規模言語モデル(LLM)は、ロボットの知覚と身体能力による常識推論の基盤となるロボット応用に最近使用されている。本稿では,タスク間を効果的に切り替える一方で,タスク間動作を生成するためのLLMをメモリプロセスに組み込むことに対処する。その結果,5つのロボットタスクのベースラインよりも性能が大幅に向上し,ロボットの動作と適応タスク実行の知覚を組み合わせたLLMにメモリを統合する可能性が示された。
論文参考訳（メタデータ） (2024-07-18T13:38:21Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。