論文の概要: Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2604.00061v1
- Date: Tue, 31 Mar 2026 06:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.655864
- Title: Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey
- Title(参考訳): MLLM駆動センシング、コミュニケーション、計算によるマルチロボットネットワークの強化:総合的な調査
- Authors: Hyun Jong Yang, Howon Lee, Kyuhong Shim, Jeongho Kwak, Hyunsoo Kim, Donghoon Kim, Khoa Anh Ngo, Sehyun Ryu, Jaehyun Choi, Youbin Kim, Chanjun Moon, Michael Ryoo, Byonghyo Shim,
- Abstract要約: MLLM指導下でのマルチロボット協調のための統合設計手法について検討した。
4つのエンドツーエンドのデモ(センス -> コミュニケーション -> 計算 -> アクション)を提示します。
システムレベルのメトリクス – ペイロード,レイテンシ,成功 – を強調して,R2Xオーケストレーションがデバイス上のベースラインで純粋に向上する理由を示している。
- 参考スコア(独自算出の注目度): 35.94145527541823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imagine advanced humanoid robots, powered by multimodal large language models (MLLMs), coordinating missions across industries like warehouse logistics, manufacturing, and safety rescue. While individual robots show local autonomy, realistic tasks demand coordination among multiple agents sharing vast streams of sensor data. Communication is indispensable, yet transmitting comprehensive data can overwhelm networks, especially when a system-level orchestrator or cloud-based MLLM fuses multimodal inputs for route planning or anomaly detection. These tasks are often initiated by high-level natural language instructions. This intent serves as a filter for resource optimization: by understanding the goal via MLLMs, the system can selectively activate relevant sensing modalities, dynamically allocate bandwidth, and determine computation placement. Thus, R2X is fundamentally an intent-to-resource orchestration problem where sensing, communication, and computation are jointly optimized to maximize task-level success under resource constraints. This survey examines how integrated design paves the way for multi-robot coordination under MLLM guidance. We review state-of-the-art sensing modalities, communication strategies, and computing approaches, highlighting how reasoning is split between on-device models and powerful edge/cloud servers. We present four end-to-end demonstrations (sense -> communicate -> compute -> act): (i) digital-twin warehouse navigation with predictive link context, (ii) mobility-driven proactive MCS control, (iii) a FollowMe robot with a semantic-sensing switch, and (iv) real-hardware open-vocabulary trash sorting via edge-assisted MLLM grounding. We emphasize system-level metrics -- payload, latency, and success -- to show why R2X orchestration outperforms purely on-device baselines.
- Abstract(参考訳): マルチモーダルな大型言語モデル(MLLM)を駆使した高度なヒューマノイドロボットを想像してみてほしい。
個々のロボットが局所的な自律性を示す一方で、現実的なタスクは、センサーデータの膨大なストリームを共有する複数のエージェント間で協調を要求する。
特にシステムレベルのオーケストレータやクラウドベースのMLLMが経路計画や異常検出のためにマルチモーダル入力を融合する場合は、ネットワークを圧倒する可能性がある。
これらのタスクは、しばしばハイレベルな自然言語命令によって開始される。
この意図はリソース最適化のためのフィルタとして機能し、MLLMを通してゴールを理解することにより、システムは関連する感覚のモダリティを選択的に活性化し、帯域幅を動的に割り当て、計算の配置を決定することができる。
したがって、R2Xは基本的に、リソース制約下でのタスクレベルの成功を最大化するために、センシング、通信、計算を共同で最適化する、リソース間のオーケストレーション問題である。
本研究は,MLLM誘導下でのマルチロボット協調を実現するための統合設計手法について検討する。
我々は、デバイス上のモデルと強力なエッジ/クラウドサーバの推論がどのように分割されているかを強調し、最先端のセンシングモダリティ、通信戦略、コンピューティングアプローチについてレビューする。
4つのエンドツーエンドのデモ(センス -> コミュニケーション -> 計算 -> 行動)を提示します。
(i)予測リンクコンテキスト付きデジタルツイン倉庫ナビゲーション
(II)モビリティ駆動型プロアクティブMCS制御
三 意味感覚スイッチ付きFollowMeロボット、及び
(4)エッジアシストMLLMグラウンドリングによるリアルハードウェアオープン語彙ゴミソート。
システムレベルのメトリクス – ペイロード,レイテンシ,成功 – を強調して,R2Xオーケストレーションがデバイス上のベースラインで純粋に向上する理由を示している。
関連論文リスト
- Large Multimodal Models-Empowered Task-Oriented Autonomous Communications: Design Methodology and Implementation Challenges [31.57528074626831]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は前例のない突破口となった。
本稿では,LLM/LMMを用いたタスク指向の自律通信について述べる。
提案したLLM/LMM支援自律システムは,従来型および差別型深層学習(DL)モデルに基づく手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-23T15:08:58Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction [24.649184273236237]
このデータセットは、HRIと機械学習の交差点における研究の基盤となるリソースとして機能する。
マルチモーダルなインプットと詳細なアノテーションを提供することで、NatSGLDは、マルチモーダルなインストラクションのフォロー、計画認識、実証から人間に推奨できる強化学習といった分野の探索を可能にする。
論文 参考訳(メタデータ) (2025-02-23T21:27:06Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Graph Neural Networks for Decentralized Multi-Robot Submodular Action
Selection [101.38634057635373]
ロボットがチームサブモジュールの目的を最大化するために共同で行動を選択する必要があるアプリケーションに焦点を当てる。
分散通信によるサブモジュール化に向けた汎用学習アーキテクチャを提案する。
大規模ロボットネットワークによるアクティブターゲットカバレッジのシナリオにおいて、GNNベースの学習アプローチのパフォーマンスを実証します。
論文 参考訳(メタデータ) (2021-05-18T15:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。