論文の概要: Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities
- arxiv url: http://arxiv.org/abs/2509.08302v1
- Date: Wed, 10 Sep 2025 05:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.319499
- Title: Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities
- Title(参考訳): 自律走行知覚のための基礎モデル:コア機能に関する調査
- Authors: Rajendramayavan Sathyam, Yueqi Li,
- Abstract要約: ファウンデーションモデルは自律運転認識に革命をもたらしており、狭いタスク固有のディープラーニングモデルから、広大な多様なデータセットでトレーニングされた多目的で汎用的なアーキテクチャへと、分野を移行している。
この調査では、これらのモデルが、一般化の限界、スケーラビリティ、分散シフトに対する堅牢性など、自律的知覚における重要な課題にどのように対処するかを検討する。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are revolutionizing autonomous driving perception, transitioning the field from narrow, task-specific deep learning models to versatile, general-purpose architectures trained on vast, diverse datasets. This survey examines how these models address critical challenges in autonomous perception, including limitations in generalization, scalability, and robustness to distributional shifts. The survey introduces a novel taxonomy structured around four essential capabilities for robust performance in dynamic driving environments: generalized knowledge, spatial understanding, multi-sensor robustness, and temporal reasoning. For each capability, the survey elucidates its significance and comprehensively reviews cutting-edge approaches. Diverging from traditional method-centric surveys, our unique framework prioritizes conceptual design principles, providing a capability-driven guide for model development and clearer insights into foundational aspects. We conclude by discussing key challenges, particularly those associated with the integration of these capabilities into real-time, scalable systems, and broader deployment challenges related to computational demands and ensuring model reliability against issues like hallucinations and out-of-distribution failures. The survey also outlines crucial future research directions to enable the safe and effective deployment of foundation models in autonomous driving systems.
- Abstract(参考訳): ファウンデーションモデルは自律運転認識に革命をもたらしており、狭いタスク固有のディープラーニングモデルから、広大な多様なデータセットでトレーニングされた多目的で汎用的なアーキテクチャへと、分野を移行している。
この調査では、これらのモデルが、一般化の限界、スケーラビリティ、分散シフトに対する堅牢性など、自律的知覚における重要な課題にどのように対処するかを検討する。
一般知識,空間的理解,マルチセンサ・ロバスト性,時間的推論という,動的運転環境におけるロバストなパフォーマンスに不可欠な4つの機能を中心に構築された新しい分類法を紹介した。
それぞれの能力について、調査はその重要性を解明し、最先端のアプローチを包括的にレビューする。
従来のメソッド中心のサーベイとは違って、私たちのユニークなフレームワークは概念設計の原則を優先し、モデル開発のための能力駆動ガイドを提供し、基礎的な側面に対するより明確な洞察を提供します。
私たちは、特にこれらの機能をリアルタイムでスケーラブルなシステムに統合することに関連する重要な課題と、計算要求に関連する広範なデプロイメント課題について議論し、幻覚やアウト・オブ・ディストリビューション障害といった問題に対するモデルの信頼性を確保します。
この調査はまた、自律運転システムにおけるファンデーションモデルの安全かつ効果的な展開を可能にするための重要な研究の方向性を概説している。
関連論文リスト
- Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - World Models for Autonomous Driving: An Initial Survey [16.448614804069674]
将来の出来事を正確に予測し、その影響を評価する能力は、安全性と効率の両方において最重要である。
世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈することができる。
本稿では,自律運転における世界モデルの現状と今後の展開について概説する。
論文 参考訳(メタデータ) (2024-03-05T03:23:55Z) - Beyond One Model Fits All: Ensemble Deep Learning for Autonomous
Vehicles [16.398646583844286]
本研究では,Mediated Perception, Behavior Reflex, Direct Perceptionの3つの異なるニューラルネットワークモデルを紹介する。
我々のアーキテクチャは、グローバルなルーティングコマンドを使用して、ベース、将来の潜伏ベクトル予測、補助タスクネットワークからの情報を融合し、適切なアクションサブネットワークを選択する。
論文 参考訳(メタデータ) (2023-12-10T04:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。