論文の概要: A Survey for Foundation Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2402.01105v2
- Date: Wed, 21 Aug 2024 17:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:54:42.309994
- Title: A Survey for Foundation Models in Autonomous Driving
- Title(参考訳): 自動運転の基礎モデルに関する調査
- Authors: Haoxiang Gao, Zhongruo Wang, Yaqian Li, Kaiwen Long, Ming Yang, Yiqing Shen,
- Abstract要約: 大規模言語モデルは、自動運転における計画とシミュレーションに寄与する。
ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応している。
多様な入力を統合するマルチモーダル基礎モデルは、例外的な視覚的理解と空間的推論を示す。
- 参考スコア(独自算出の注目度): 10.315409708116865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps.
- Abstract(参考訳): 基礎モデルの出現は、自然言語処理とコンピュータビジョンの分野に革命をもたらした。
本調査は40以上の研究論文を総合的にレビューし,ADの強化における基礎モデルの役割を実証する。
大規模な言語モデルは、特に推論、コード生成、翻訳の習熟を通じて、ADにおける計画とシミュレーションに寄与する。
並行して、ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応し、シミュレーションやテストのための現実的な駆動シナリオを作成している。
多様な入力を統合するマルチモーダル基礎モデルでは、視覚的理解と空間的推論が極めて重要である。
本調査は,ADドメイン内のモダリティと機能に基づいて基礎モデルを分類し,構造的な分類法を提供するだけでなく,現在の研究で採用されている手法についても検討する。
既存の基盤モデルと最先端のADアプローチのギャップを特定し、将来の研究方向性をチャート化し、これらのギャップを埋めるためのロードマップを提案します。
関連論文リスト
- AI Foundation Models in Remote Sensing: A Survey [6.036426846159163]
本稿では,リモートセンシング領域における基礎モデルの包括的調査を行う。
コンピュータビジョンおよびドメイン固有タスクにおけるそれらの応用に基づいて、これらのモデルを分類する。
これらの基盤モデルによって達成された、新しいトレンドと大きな進歩を強調します。
論文 参考訳(メタデータ) (2024-08-06T22:39:34Z) - A Survey of Resource-efficient LLM and Multimodal Foundation Models [22.23967603206849]
大規模言語モデル(LLM)、ビジョントランスフォーマー(ViT)、拡散、マルチモーダルモデルを含む大規模な基盤モデルは、機械学習ライフサイクル全体に革命をもたらしている。
しかしながら、これらのモデルが提供する汎用性と性能の大幅な進歩は、ハードウェアリソースの面でかなりのコストがかかる。
この調査は、アルゴリズム的側面とシステム的側面の両方を調べることで、そのような研究の重要さを掘り下げるものである。
論文 参考訳(メタデータ) (2024-01-16T03:35:26Z) - A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。
本稿では,推論に適応する基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文 参考訳(メタデータ) (2023-12-17T15:16:13Z) - Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。
本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文 参考訳(メタデータ) (2023-12-15T19:17:15Z) - Foundational Models in Medical Imaging: A Comprehensive Survey and
Future Vision [6.2847894163744105]
ファンデーションモデルは、広範囲の下流タスクに適応した大規模で事前訓練されたディープラーニングモデルである。
これらのモデルは、コンテキスト推論、一般化、テスト時の迅速な機能を促進する。
コンピュータビジョンの進歩に乗じて、医療画像はこれらのモデルへの関心も高まっている。
論文 参考訳(メタデータ) (2023-10-28T12:08:12Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [6.85448651843431]
基礎モデルは,データ発見およびデータ探索領域に適用可能であることを示す。
基礎モデルに基づくアプローチは,タスク固有のモデルよりも優れており,その技術の現状を示す。
これは、異なるデータ管理タスクを基礎モデルの下で統一できる将来的な方向性を示唆している。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Quantitatively Assessing the Benefits of Model-driven Development in
Agent-based Modeling and Simulation [80.49040344355431]
本稿では,MDD とABMS プラットフォームの利用状況と開発ミスについて比較する。
その結果、MDD4ABMSはNetLogoと類似した設計品質のシミュレーションを開発するのに、より少ない労力を必要とすることがわかった。
論文 参考訳(メタデータ) (2020-06-15T23:29:04Z) - A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。
本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。
本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文 参考訳(メタデータ) (2020-01-21T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。