Fugu-MT 論文翻訳(概要): A Survey of Multi-sensor Fusion Perception for Embodied AI: Background, Methods, Challenges and Prospects

論文の概要: A Survey of Multi-sensor Fusion Perception for Embodied AI: Background, Methods, Challenges and Prospects

arxiv url: http://arxiv.org/abs/2506.19769v1
Date: Tue, 24 Jun 2025 16:34:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.723238
Title: A Survey of Multi-sensor Fusion Perception for Embodied AI: Background, Methods, Challenges and Prospects
Title（参考訳）: 身体的AIのためのマルチセンサフュージョン知覚に関する調査:背景,方法,課題,展望
Authors: Shulan Ruan, Rongwei Wang, Xuchen Shen, Huijie Liu, Baihui Xiao, Jun Shi, Kun Zhang, Zhenya Huang, Yu Liu, Enhong Chen, You He,
Abstract要約: マルチセンサー融合知覚(MSFP)は、AIを具現化するための重要な技術である。 AIベースのMSFP手法に関する最近の成果は、関連する調査でレビューされている。
参考スコア（独自算出の注目度）: 60.31285117477418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-sensor fusion perception (MSFP) is a key technology for embodied AI, which can serve a variety of downstream tasks (e.g., 3D object detection and semantic segmentation) and application scenarios (e.g., autonomous driving and swarm robotics). Recently, impressive achievements on AI-based MSFP methods have been reviewed in relevant surveys. However, we observe that the existing surveys have some limitations after a rigorous and detailed investigation. For one thing, most surveys are oriented to a single task or research field, such as 3D object detection or autonomous driving. Therefore, researchers in other related tasks often find it difficult to benefit directly. For another, most surveys only introduce MSFP from a single perspective of multi-modal fusion, while lacking consideration of the diversity of MSFP methods, such as multi-view fusion and time-series fusion. To this end, in this paper, we hope to organize MSFP research from a task-agnostic perspective, where methods are reported from various technical views. Specifically, we first introduce the background of MSFP. Next, we review multi-modal and multi-agent fusion methods. A step further, time-series fusion methods are analyzed. In the era of LLM, we also investigate multimodal LLM fusion methods. Finally, we discuss open challenges and future directions for MSFP. We hope this survey can help researchers understand the important progress in MSFP and provide possible insights for future research.
Abstract（参考訳）: マルチセンサー融合知覚(MSFP)は、さまざまな下流タスク(例えば、3Dオブジェクトの検出とセマンティックセグメンテーション)とアプリケーションシナリオ(例えば、自律運転とスウォームロボティクス)に役立てることができる、AIを具現化するための重要な技術である。近年、AIベースのMSFP手法に関する印象的な成果が、関連する調査でレビューされている。しかし, 厳密かつ詳細な調査の結果, 既存の調査にはいくつかの限界があることが明らかとなった。例えば、ほとんどの調査は、3Dオブジェクトの検出や自律運転など、単一のタスクや研究分野に向けられている。そのため、他の関連タスクの研究者は直接的に利益を得るのが難しいことが多い。また、ほとんどの調査ではマルチモーダル核融合の観点からのみMSFPを導入するが、マルチビュー核融合や時系列核融合のようなMSFP法の多様性は考慮されていない。そこで本稿では,様々な技術的視点から手法を報告するタスク非依存の観点から,MSFP研究の組織化を期待する。具体的には、まずMSFPの背景を紹介する。次に,マルチモーダル・マルチエージェント融合法について述べる。さらに、時系列融合法を解析する。 LLMの時代には、マルチモーダルLLM融合法についても検討する。最後に,MSFPのオープン課題と今後の方向性について論じる。この調査が、MSFPの重要な進歩を理解し、将来の研究に可能な洞察を提供するのに役立つことを願っている。

関連論文リスト

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [25.31489336119893]
重要なロボットビジョンタスクにおけるマルチモーダル融合の応用を体系的に検討する。視覚言語モデル(VLM)と従来のマルチモーダル融合法を比較し,その利点,限界,シナジーを分析した。クロスモーダルアライメント、効率的な融合戦略、リアルタイムデプロイメント、ドメイン適応といった重要な研究課題を特定します。
論文参考訳（メタデータ） (2025-04-03T10:53:07Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。 MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文参考訳（メタデータ） (2025-02-07T12:18:20Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Detecting Multimedia Generated by Large AI Models: A Survey [25.97663040910416]
この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することである。メディアモダリティによって分類された検出手法のための新しい分類法を提案する。ソーシャルメディアの観点から焦点を絞った分析を行い、より広範な社会的影響を強調します。
論文参考訳（メタデータ） (2024-01-22T15:08:19Z)
MMDR: A Result Feature Fusion Object Detection Approach for Autonomous System [5.499393552545591]
提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。 MMDRモデルは、機能融合の段階で、浅いグローバルな特徴を取り入れ、背景情報を知覚する能力を持つモデルを提供する。
論文参考訳（メタデータ） (2023-04-19T12:28:42Z)
Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文参考訳（メタデータ） (2022-05-22T06:54:33Z)
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey [29.804411344922382]
本稿では,自律運転における知覚課題に対する既存のマルチモーダル方式の文献的考察を行う。融合段階の観点から,より合理的な分類法により,これらを2つの主要なクラス,4つのマイナークラスに分割する革新的な方法を提案する。
論文参考訳（メタデータ） (2022-02-06T04:18:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。