論文の概要: Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities
- arxiv url: http://arxiv.org/abs/2401.08045v1
- Date: Tue, 16 Jan 2024 01:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:24:08.546053
- Title: Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities
- Title(参考訳): 自律運転のためのビジョンファウンデーションモデル:挑戦、方法論、機会
- Authors: Xu Yan, Haiming Zhang, Yingjie Cai, Jingming Guo, Weichao Qiu, Bin
Gao, Kaiqiang Zhou, Yue Zhao, Huan Jin, Jiantao Gao, Zhen Li, Lihui Jiang,
Wei Zhang, Hongbo Zhang, Dengxin Dai, Bingbing Liu
- Abstract要約: ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
- 参考スコア(独自算出の注目度): 59.02391344178202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large foundation models, trained on extensive datasets, is
revolutionizing the field of AI. Models such as SAM, DALL-E2, and GPT-4
showcase their adaptability by extracting intricate patterns and performing
effectively across diverse tasks, thereby serving as potent building blocks for
a wide range of AI applications. Autonomous driving, a vibrant front in AI
applications, remains challenged by the lack of dedicated vision foundation
models (VFMs). The scarcity of comprehensive training data, the need for
multi-sensor integration, and the diverse task-specific architectures pose
significant obstacles to the development of VFMs in this field. This paper
delves into the critical challenge of forging VFMs tailored specifically for
autonomous driving, while also outlining future directions. Through a
systematic analysis of over 250 papers, we dissect essential techniques for VFM
development, including data preparation, pre-training strategies, and
downstream task adaptation. Moreover, we explore key advancements such as NeRF,
diffusion models, 3D Gaussian Splatting, and world models, presenting a
comprehensive roadmap for future research. To empower researchers, we have
built and maintained https://github.com/zhanghm1995/Forge_VFM4AD, an
open-access repository constantly updated with the latest advancements in
forging VFMs for autonomous driving.
- Abstract(参考訳): 広範なデータセットに基づいてトレーニングされた大規模な基盤モデルの台頭は、AIの分野に革命をもたらしている。
SAM、DALL-E2、GPT-4といったモデルでは、複雑なパターンを抽出し、さまざまなタスクを効果的に実行することにより、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
AIアプリケーションにおける活発な前線である自律運転は、専用のビジョン基盤モデル(VFM)の欠如によって、依然として挑戦されている。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、この分野におけるVFMの発展に大きな障害をもたらす。
本稿では,自動運転に特化したvfmの鍛造と今後の方向性について概説する。
250以上の論文を体系的に分析し,データ準備,事前学習戦略,ダウンストリームタスク適応など,vfm開発に不可欠な技術を分析した。
さらに,NeRF,拡散モデル,3次元ガウススプラッティング,世界モデルなどの重要な進歩を探求し,今後の研究の包括的なロードマップを示す。
研究者を力づけるために、我々は、自動運転のためのVFMの鍛造の最新技術とともに常に更新されるオープンアクセスリポジトリであるhttps://github.com/zhanghm 1995/Forge_VFM4ADを構築し、維持した。
関連論文リスト
- An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized
Multimodal Framework [51.01581167257862]
UnifiedVisionGPTは、SOTAビジョンモデルの統合と自動化を目的とした新しいフレームワークである。
本稿では,UnifiedVisionGPTのアーキテクチャと機能について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2023-11-16T13:01:25Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health
Management: A Survey and Roadmaps [8.62142522782743]
産業生産と設備整備において,PHM技術は重要な役割を担っている。
ChatGPTやDALLE-Eといった大規模ファンデーションモデル(LSF-Model)は、AIがAI-2.0の新しい時代に入ることを象徴している。
本稿では,LSFモデルの主要なコンポーネントと最新の開発について,体系的に解説する。
論文 参考訳(メタデータ) (2023-05-10T21:37:44Z) - INTERN: A New Learning Paradigm Towards General Vision [117.3343347061931]
我々はInterNという新しい学習パラダイムを開発した。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文 参考訳(メタデータ) (2021-11-16T18:42:50Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。