論文の概要: MARS: Multi-Agent Robotic System with Multimodal Large Language Models for Assistive Intelligence
- arxiv url: http://arxiv.org/abs/2511.01594v1
- Date: Mon, 03 Nov 2025 13:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.285343
- Title: MARS: Multi-Agent Robotic System with Multimodal Large Language Models for Assistive Intelligence
- Title(参考訳): MARS:マルチモーダル大言語モデルを用いた補助知能のためのマルチエージェントロボットシステム
- Authors: Renjun Gao, Peiyan Zhong,
- Abstract要約: 我々は,MLLMを用いた多エージェントロボットシステムMARSを紹介する。
このフレームワークは、動的屋内環境における適応的でリスクを認識し、パーソナライズされた支援を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable capabilities in cross-modal understanding and reasoning, offering new opportunities for intelligent assistive systems, yet existing systems still struggle with risk-aware planning, user personalization, and grounding language plans into executable skills in cluttered homes. We introduce MARS - a Multi-Agent Robotic System powered by MLLMs for assistive intelligence and designed for smart home robots supporting people with disabilities. The system integrates four agents: a visual perception agent for extracting semantic and spatial features from environment images, a risk assessment agent for identifying and prioritizing hazards, a planning agent for generating executable action sequences, and an evaluation agent for iterative optimization. By combining multimodal perception with hierarchical multi-agent decision-making, the framework enables adaptive, risk-aware, and personalized assistance in dynamic indoor environments. Experiments on multiple datasets demonstrate the superior overall performance of the proposed system in risk-aware planning and coordinated multi-agent execution compared with state-of-the-art multimodal models. The proposed approach also highlights the potential of collaborative AI for practical assistive scenarios and provides a generalizable methodology for deploying MLLM-enabled multi-agent systems in real-world environments.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) は、クロスモーダルな理解と推論、インテリジェントな補助システムのための新たな機会を提供する一方で、既存のシステムは、リスク対応計画、ユーザパーソナライゼーション、言語計画を散らばった家庭で実行可能なスキルに根ざすのに苦戦している。
MLLMを用いた多エージェントロボットシステムMARSを紹介する。
本システムは、環境画像から意味的特徴及び空間的特徴を抽出する視覚知覚エージェントと、ハザードを特定し優先順位付けするためのリスク評価エージェントと、実行可能なアクションシーケンスを生成する計画エージェントと、反復最適化のための評価エージェントとを含む4つのエージェントを統合する。
マルチモーダル認識と階層的マルチエージェント意思決定を組み合わせることで,動的屋内環境における適応的,リスク認識的,パーソナライズされた支援を可能にする。
複数のデータセットに対する実験は、リスク対応計画と協調マルチエージェント実行において、最先端のマルチモーダルモデルと比較して提案システムの全体的な性能が優れていることを示す。
提案手法はまた,実用的な支援シナリオのための協調AIの可能性を強調し,MLLM対応マルチエージェントシステムを実環境に展開するための一般化可能な方法論を提供する。
関連論文リスト
- MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines [23.407716896592383]
本稿では,マルチエージェントシステムの自動生成が可能な有限状態マシンベースのフレームワークを提案する。
タスク記述を前提として、MetaAgentはマルチエージェントシステムを設計し、最適化アルゴリズムによってそれを洗練する。
マルチエージェントシステムがデプロイされると、有限状態マシンがエージェントのアクションと状態遷移を制御する。
論文 参考訳(メタデータ) (2025-07-30T12:22:30Z) - Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models [75.4890331763196]
大規模言語モデル(LLM)の最近のブレークスルーは、エージェントAIシステムの出現につながっている。
LLMベースのAgentic RS(LLM-ARS)は、よりインタラクティブで、コンテキストを認識し、プロアクティブなレコメンデーションを提供する。
論文 参考訳(メタデータ) (2025-03-20T22:37:15Z) - LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。
LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。
LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文 参考訳(メタデータ) (2024-12-12T12:47:09Z) - Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。
高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。
また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文 参考訳(メタデータ) (2024-07-25T05:50:46Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - LLM Multi-Agent Systems: Challenges and Open Problems [11.029111835428344]
マルチエージェントシステムはエージェントの協調によって複雑なタスクに対処できる。
本稿では,タスク割り当ての最適化,反復的議論による堅牢な推論の促進,複雑で階層的なコンテキスト情報の管理,メモリ管理の強化について論じる。
また、ブロックチェーンシステムにおけるマルチエージェントシステムの潜在的な応用について検討し、現実の分散システムにおける将来の開発と応用について光を当てています。
論文 参考訳(メタデータ) (2024-02-05T23:06:42Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。