論文の概要: A Survey of Multi-sensor Fusion Perception for Embodied AI: Background, Methods, Challenges and Prospects
- arxiv url: http://arxiv.org/abs/2506.19769v1
- Date: Tue, 24 Jun 2025 16:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.723238
- Title: A Survey of Multi-sensor Fusion Perception for Embodied AI: Background, Methods, Challenges and Prospects
- Title(参考訳): 身体的AIのためのマルチセンサフュージョン知覚に関する調査:背景,方法,課題,展望
- Authors: Shulan Ruan, Rongwei Wang, Xuchen Shen, Huijie Liu, Baihui Xiao, Jun Shi, Kun Zhang, Zhenya Huang, Yu Liu, Enhong Chen, You He,
- Abstract要約: マルチセンサー融合知覚(MSFP)は、AIを具現化するための重要な技術である。
AIベースのMSFP手法に関する最近の成果は、関連する調査でレビューされている。
- 参考スコア(独自算出の注目度): 60.31285117477418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sensor fusion perception (MSFP) is a key technology for embodied AI, which can serve a variety of downstream tasks (e.g., 3D object detection and semantic segmentation) and application scenarios (e.g., autonomous driving and swarm robotics). Recently, impressive achievements on AI-based MSFP methods have been reviewed in relevant surveys. However, we observe that the existing surveys have some limitations after a rigorous and detailed investigation. For one thing, most surveys are oriented to a single task or research field, such as 3D object detection or autonomous driving. Therefore, researchers in other related tasks often find it difficult to benefit directly. For another, most surveys only introduce MSFP from a single perspective of multi-modal fusion, while lacking consideration of the diversity of MSFP methods, such as multi-view fusion and time-series fusion. To this end, in this paper, we hope to organize MSFP research from a task-agnostic perspective, where methods are reported from various technical views. Specifically, we first introduce the background of MSFP. Next, we review multi-modal and multi-agent fusion methods. A step further, time-series fusion methods are analyzed. In the era of LLM, we also investigate multimodal LLM fusion methods. Finally, we discuss open challenges and future directions for MSFP. We hope this survey can help researchers understand the important progress in MSFP and provide possible insights for future research.
- Abstract(参考訳): マルチセンサー融合知覚(MSFP)は、さまざまな下流タスク(例えば、3Dオブジェクトの検出とセマンティックセグメンテーション)とアプリケーションシナリオ(例えば、自律運転とスウォームロボティクス)に役立てることができる、AIを具現化するための重要な技術である。
近年、AIベースのMSFP手法に関する印象的な成果が、関連する調査でレビューされている。
しかし, 厳密かつ詳細な調査の結果, 既存の調査にはいくつかの限界があることが明らかとなった。
例えば、ほとんどの調査は、3Dオブジェクトの検出や自律運転など、単一のタスクや研究分野に向けられている。
そのため、他の関連タスクの研究者は直接的に利益を得るのが難しいことが多い。
また、ほとんどの調査ではマルチモーダル核融合の観点からのみMSFPを導入するが、マルチビュー核融合や時系列核融合のようなMSFP法の多様性は考慮されていない。
そこで本稿では,様々な技術的視点から手法を報告するタスク非依存の観点から,MSFP研究の組織化を期待する。
具体的には、まずMSFPの背景を紹介する。
次に,マルチモーダル・マルチエージェント融合法について述べる。
さらに、時系列融合法を解析する。
LLMの時代には、マルチモーダルLLM融合法についても検討する。
最後に,MSFPのオープン課題と今後の方向性について論じる。
この調査が、MSFPの重要な進歩を理解し、将来の研究に可能な洞察を提供するのに役立つことを願っている。
関連論文リスト
- Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Detecting Multimedia Generated by Large AI Models: A Survey [25.97663040910416]
この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することである。
メディアモダリティによって分類された検出手法のための新しい分類法を提案する。
ソーシャルメディアの観点から焦点を絞った分析を行い、より広範な社会的影響を強調します。
論文 参考訳(メタデータ) (2024-01-22T15:08:19Z) - Multi-modal Sensor Fusion for Auto Driving Perception: A Survey [29.804411344922382]
本稿では,自律運転における知覚課題に対する既存のマルチモーダル方式の文献的考察を行う。
融合段階の観点から,より合理的な分類法により,これらを2つの主要なクラス,4つのマイナークラスに分割する革新的な方法を提案する。
論文 参考訳(メタデータ) (2022-02-06T04:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。