論文の概要: Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots
- arxiv url: http://arxiv.org/abs/2511.00917v1
- Date: Sun, 02 Nov 2025 12:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.994067
- Title: Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots
- Title(参考訳): Maestro:ゼロショット汎用ロボットのためのビジョンランゲージモデルを用いたロボットモジュールのオーケストレーション
- Authors: Junyao Shi, Rujia Yang, Kaitian Chao, Selina Bingqing Wan, Yifei Shao, Jiahui Lei, Jianing Qian, Long Le, Pratik Chaudhari, Kostas Daniilidis, Chuan Wen, Dinesh Jayaraman,
- Abstract要約: 我々は、視覚言語モデル(VLM)に関するポリシーを構築し、認識、計画、制御モジュールのキュレートされたセットにカプセル化された特定のロボット機能によって、その汎用能力を増強する。
Maestroでは、VLMコーディングエージェントがこれらのモジュールを現在のタスクとシナリオのためのプログラムポリシーに動的に構成する。
- 参考スコア(独自算出の注目度): 54.62646284378409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's best-explored routes towards generalist robots center on collecting ever larger "observations-in actions-out" robotics datasets to train large end-to-end models, copying a recipe that has worked for vision-language models (VLMs). We pursue a road less traveled: building generalist policies directly around VLMs by augmenting their general capabilities with specific robot capabilities encapsulated in a carefully curated set of perception, planning, and control modules. In Maestro, a VLM coding agent dynamically composes these modules into a programmatic policy for the current task and scenario. Maestro's architecture benefits from a streamlined closed-loop interface without many manually imposed structural constraints, and a comprehensive and diverse tool repertoire. As a result, it largely surpasses today's VLA models for zero-shot performance on challenging manipulation skills. Further, Maestro is easily extensible to incorporate new modules, easily editable to suit new embodiments such as a quadruped-mounted arm, and even easily adapts from minimal real-world experiences through local code edits.
- Abstract(参考訳): ロボットデータセットを収集して、大規模なエンドツーエンドモデルをトレーニングし、視覚言語モデル(VLM)で機能するレシピをコピーする。
我々は、VLMの周囲の一般的なポリシーを構築するために、慎重に調整された知覚、計画、制御モジュールにカプセル化された特定のロボット機能によって、その一般的な能力を増強する。
Maestroでは、VLMコーディングエージェントがこれらのモジュールを現在のタスクとシナリオのためのプログラムポリシーに動的に構成する。
Maestroのアーキテクチャは、手動で構造的な制約を課すことなく、クローズドループインターフェースの合理化と、包括的で多様なツールレパートリーから恩恵を受けている。
結果として、今日のVLAモデルよりも、難易度の高い操作スキルにおいてゼロショットのパフォーマンスをはるかに上回っている。
さらに、Maestroは簡単に拡張可能で、新しいモジュールを組み込むことができ、四足歩行アームのような新しい実施形態に適合するように容易に編集でき、またローカルコード編集を通じて、最小限の現実世界体験から容易に適応できる。
関連論文リスト
- Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-11T09:13:10Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Unlocking Generalization for Robotics via Modularity and Scale [7.650888732318727]
本論文は,汎用ロボット制御のための大規模学習とモジュール性を統合することで,汎用ロボットエージェント構築の課題に取り組むことを目的とする。
私たちの重要な洞察は、エージェントに階層構造と低レベルの制御を学習させるのではなく、計画を通じてモジュール化を強制できるということです。
スケールするには、膨大な量の多様なデータ、データに適合する表現力のあるアーキテクチャ、データを生成するための監視源が必要です。
論文 参考訳(メタデータ) (2025-03-10T00:38:31Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。