論文の概要: Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review
- arxiv url: http://arxiv.org/abs/2505.20503v1
- Date: Mon, 26 May 2025 20:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.280246
- Title: Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review
- Title(参考訳): モバイルサービスロボットのためのファンデーションモデルを備えたエンボディードAI:システムレビュー
- Authors: Matthew Lisondra, Beno Benhabib, Goldie Nejat,
- Abstract要約: 本稿では,モバイルサービスロボティクスにおける基礎モデルの統合に関する最初の体系的なレビューを紹介する。
本稿では, リアルタイムセンサ融合, 言語条件制御, 適応タスク実行におけるそのようなモデルの役割について検討する。
また、国内援助、医療、サービス自動化分野における現実世界の応用についても論じる。
- 参考スコア(独自算出の注目度): 4.540236408836132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advancements in foundation models, including Large Language Models, Vision-Language Models, Multimodal Large Language Models, and Vision-Language-Action Models have opened new avenues for embodied AI in mobile service robotics. By combining foundation models with the principles of embodied AI, where intelligent systems perceive, reason, and act through physical interactions, robots can improve understanding, adapt to, and execute complex tasks in dynamic real-world environments. However, embodied AI in mobile service robots continues to face key challenges, including multimodal sensor fusion, real-time decision-making under uncertainty, task generalization, and effective human-robot interactions (HRI). In this paper, we present the first systematic review of the integration of foundation models in mobile service robotics, identifying key open challenges in embodied AI and examining how foundation models can address them. Namely, we explore the role of such models in enabling real-time sensor fusion, language-conditioned control, and adaptive task execution. Furthermore, we discuss real-world applications in the domestic assistance, healthcare, and service automation sectors, demonstrating the transformative impact of foundation models on service robotics. We also include potential future research directions, emphasizing the need for predictive scaling laws, autonomous long-term adaptation, and cross-embodiment generalization to enable scalable, efficient, and robust deployment of foundation models in human-centric robotic systems.
- Abstract(参考訳): Large Language Models、Vision-Language Models、Multimodal Large Language Models、Vision-Language-Action Modelsといった基礎モデルの急速な進歩は、モバイルサービスロボティクスにAIを組み込むための新たな道を開いた。
基礎モデルとAIの原則を組み合わせることで、インテリジェントなシステムが物理的相互作用を通じて知覚、理性、行動を理解することによって、ロボットは、動的な現実世界環境で複雑なタスクを理解し、適応し、実行することができる。
しかし、モバイルサービスロボットに組み込まれたAIは、マルチモーダルセンサー融合、不確実性の下でのリアルタイム意思決定、タスクの一般化、効果的なヒューマンロボットインタラクション(HRI)など、重要な課題に直面し続けている。
本稿では,モバイルサービスロボティクスにおける基礎モデルの統合を初めて体系的に検討し,AIの具体化における重要な課題を特定し,基礎モデルがそれに対応する方法について検討する。
すなわち、リアルタイムセンサ融合、言語条件制御、適応タスク実行において、そのようなモデルが果たす役割について検討する。
さらに、国内援助、医療、サービス自動化分野における現実的な応用について論じ、基礎モデルがサービスロボティクスに与える影響を実証する。
また、予測スケーリング法則、自律的長期適応、そして人中心ロボットシステムにおける基礎モデルのスケーラブルで効率的で堅牢な展開を可能にするためのクロス・エボディメントの一般化の必要性を強調した将来の研究の方向性についても紹介する。
関連論文リスト
- Vision-Language-Action Models: Concepts, Progress, Applications and Challenges [4.180065442680541]
Vision-Language-Actionモデルは、知覚、自然言語理解、実施された行動を単一の計算フレームワーク内で統一することを目的としている。
この基礎的なレビューは、ビジョン・ランゲージ・アクションモデルにおける最近の進歩の包括的合成を提示する。
主要な進歩分野は、アーキテクチャの革新、パラメータ効率のトレーニング戦略、リアルタイム推論アクセラレーションである。
論文 参考訳(メタデータ) (2025-05-07T19:46:43Z) - Redefining Robot Generalization Through Interactive Intelligence [0.0]
ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。
シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
論文 参考訳(メタデータ) (2025-02-09T17:13:27Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Real-World Robot Applications of Foundation Models: A Review [25.53250085363019]
LLM(Large Language Models)やVLM(Vision-Language Models)のような基盤モデルの最近の発展は、様々なタスクやモダリティにまたがる柔軟な適用を促進する。
本稿では,現実のロボット工学における基礎モデルの実用的応用について概説する。
論文 参考訳(メタデータ) (2024-02-08T15:19:50Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。