論文の概要: Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
- arxiv url: http://arxiv.org/abs/2512.24385v1
- Date: Tue, 30 Dec 2025 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.450788
- Title: Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
- Title(参考訳): 空間知の鍛造: 自律システムのためのマルチモーダルデータ事前訓練のロードマップ
- Authors: Song Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi,
- Abstract要約: 自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 75.78934957242403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of autonomous systems, including self-driving vehicles and drones, has intensified the need to forge true Spatial Intelligence from multi-modal onboard sensor data. While foundation models excel in single-modal contexts, integrating their capabilities across diverse sensors like cameras and LiDAR to create a unified understanding remains a formidable challenge. This paper presents a comprehensive framework for multi-modal pre-training, identifying the core set of techniques driving progress toward this goal. We dissect the interplay between foundational sensor characteristics and learning strategies, evaluating the role of platform-specific datasets in enabling these advancements. Our central contribution is the formulation of a unified taxonomy for pre-training paradigms: ranging from single-modality baselines to sophisticated unified frameworks that learn holistic representations for advanced tasks like 3D object detection and semantic occupancy prediction. Furthermore, we investigate the integration of textual inputs and occupancy representations to facilitate open-world perception and planning. Finally, we identify critical bottlenecks, such as computational efficiency and model scalability, and propose a roadmap toward general-purpose multi-modal foundation models capable of achieving robust Spatial Intelligence for real-world deployment.
- Abstract(参考訳): 自動運転車やドローンを含む自動運転車の急速な進歩により、マルチモーダル搭載センサーデータから真の空間知能を鍛える必要性が高まっている。
基礎モデルは単一モードのコンテキストで優れているが、カメラやLiDARのような多様なセンサーにその能力を統合することで、統一された理解を作り出すことは、依然として困難な課題だ。
本稿では,マルチモーダル・プレトレーニングのための包括的フレームワークを提案する。
基礎的なセンサ特性と学習戦略の相互作用を識別し,これらの進歩を実現する上でのプラットフォーム固有のデータセットの役割を評価する。
私たちの中心的な貢献は、単一モダリティのベースラインから、3Dオブジェクトの検出やセマンティック占有予測といった高度なタスクの全体的表現を学習する洗練された統合フレームワークまで、事前訓練パラダイムのための統一された分類の定式化です。
さらに、オープンワールドの認識と計画を容易にするために、テキスト入力と占有表現の統合について検討する。
最後に,計算効率やモデルのスケーラビリティといった重要なボトルネックを特定し,実世界展開のための堅牢な空間知能を実現するための汎用マルチモーダル基盤モデルに向けたロードマップを提案する。
関連論文リスト
- Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration [9.66105329596482]
推論の特定のモダリティを目標にすることなく、様々なタスクを一般化できる新しいマルチモーダル・コラーニングフレームワークを提案する。
我々のアプローチは、対照的かつモダリティの識別学習を組み合わせ、単一のモダリティモデルを誘導し、内部モデル多様体をモダリティ共有およびモダリティ固有情報に構造化する。
論文 参考訳(メタデータ) (2025-10-22T13:29:32Z) - Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities [0.6445605125467574]
ファウンデーションモデルは自律運転認識に革命をもたらしており、狭いタスク固有のディープラーニングモデルから、広大な多様なデータセットでトレーニングされた多目的で汎用的なアーキテクチャへと、分野を移行している。
この調査では、これらのモデルが、一般化の限界、スケーラビリティ、分散シフトに対する堅牢性など、自律的知覚における重要な課題にどのように対処するかを検討する。
論文 参考訳(メタデータ) (2025-09-10T05:45:49Z) - A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving [6.223368492604449]
Uncertainty Modal Modeling (UMM) フレームワークは、マルチモーダルトークンマッパー、合成モダリティ強化戦略、およびクロスモーダルキュー対話型学習器を統合している。
UMMは、不確実なモード条件下で強い堅牢性、一般化、および計算効率を達成する。
論文 参考訳(メタデータ) (2025-08-15T04:50:27Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。