Fugu-MT 論文翻訳(概要): Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey

論文の概要: Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2604.00061v1
Date: Tue, 31 Mar 2026 06:26:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.655864
Title: Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey
Title（参考訳）: MLLM駆動センシング、コミュニケーション、計算によるマルチロボットネットワークの強化:総合的な調査
Authors: Hyun Jong Yang, Howon Lee, Kyuhong Shim, Jeongho Kwak, Hyunsoo Kim, Donghoon Kim, Khoa Anh Ngo, Sehyun Ryu, Jaehyun Choi, Youbin Kim, Chanjun Moon, Michael Ryoo, Byonghyo Shim,
Abstract要約: MLLM指導下でのマルチロボット協調のための統合設計手法について検討した。 4つのエンドツーエンドのデモ(センス -> コミュニケーション -> 計算 -> アクション)を提示します。システムレベルのメトリクス – ペイロード,レイテンシ,成功 – を強調して,R2Xオーケストレーションがデバイス上のベースラインで純粋に向上する理由を示している。
参考スコア（独自算出の注目度）: 35.94145527541823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imagine advanced humanoid robots, powered by multimodal large language models (MLLMs), coordinating missions across industries like warehouse logistics, manufacturing, and safety rescue. While individual robots show local autonomy, realistic tasks demand coordination among multiple agents sharing vast streams of sensor data. Communication is indispensable, yet transmitting comprehensive data can overwhelm networks, especially when a system-level orchestrator or cloud-based MLLM fuses multimodal inputs for route planning or anomaly detection. These tasks are often initiated by high-level natural language instructions. This intent serves as a filter for resource optimization: by understanding the goal via MLLMs, the system can selectively activate relevant sensing modalities, dynamically allocate bandwidth, and determine computation placement. Thus, R2X is fundamentally an intent-to-resource orchestration problem where sensing, communication, and computation are jointly optimized to maximize task-level success under resource constraints. This survey examines how integrated design paves the way for multi-robot coordination under MLLM guidance. We review state-of-the-art sensing modalities, communication strategies, and computing approaches, highlighting how reasoning is split between on-device models and powerful edge/cloud servers. We present four end-to-end demonstrations (sense -> communicate -> compute -> act): (i) digital-twin warehouse navigation with predictive link context, (ii) mobility-driven proactive MCS control, (iii) a FollowMe robot with a semantic-sensing switch, and (iv) real-hardware open-vocabulary trash sorting via edge-assisted MLLM grounding. We emphasize system-level metrics -- payload, latency, and success -- to show why R2X orchestration outperforms purely on-device baselines.
Abstract（参考訳）: マルチモーダルな大型言語モデル(MLLM)を駆使した高度なヒューマノイドロボットを想像してみてほしい。個々のロボットが局所的な自律性を示す一方で、現実的なタスクは、センサーデータの膨大なストリームを共有する複数のエージェント間で協調を要求する。特にシステムレベルのオーケストレータやクラウドベースのMLLMが経路計画や異常検出のためにマルチモーダル入力を融合する場合は、ネットワークを圧倒する可能性がある。これらのタスクは、しばしばハイレベルな自然言語命令によって開始される。この意図はリソース最適化のためのフィルタとして機能し、MLLMを通してゴールを理解することにより、システムは関連する感覚のモダリティを選択的に活性化し、帯域幅を動的に割り当て、計算の配置を決定することができる。したがって、R2Xは基本的に、リソース制約下でのタスクレベルの成功を最大化するために、センシング、通信、計算を共同で最適化する、リソース間のオーケストレーション問題である。本研究は,MLLM誘導下でのマルチロボット協調を実現するための統合設計手法について検討する。我々は、デバイス上のモデルと強力なエッジ/クラウドサーバの推論がどのように分割されているかを強調し、最先端のセンシングモダリティ、通信戦略、コンピューティングアプローチについてレビューする。 4つのエンドツーエンドのデモ(センス -> コミュニケーション -> 計算 -> 行動)を提示します。 (i)予測リンクコンテキスト付きデジタルツイン倉庫ナビゲーション (II)モビリティ駆動型プロアクティブMCS制御三意味感覚スイッチ付きFollowMeロボット、及び (4)エッジアシストMLLMグラウンドリングによるリアルハードウェアオープン語彙ゴミソート。システムレベルのメトリクス – ペイロード,レイテンシ,成功 – を強調して,R2Xオーケストレーションがデバイス上のベースラインで純粋に向上する理由を示している。

論文の概要: Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey

関連論文リスト