論文の概要: ADriver-I: A General World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2311.13549v1
- Date: Wed, 22 Nov 2023 17:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 14:15:16.095273
- Title: ADriver-I: A General World Model for Autonomous Driving
- Title(参考訳): ADriver-I: 自律運転のための一般的な世界モデル
- Authors: Fan Jia, Weixin Mao, Yingfei Liu, Yucheng Zhao, Yuqing Wen, Chi Zhang,
Xiangyu Zhang, Tiancai Wang
- Abstract要約: 視覚特徴と制御信号の形式を統一するインターリーブド・ビジョン・アクション・ペアの概念を導入する。
ADriver-I と呼ばれる自律運転のためのMLLMと拡散モデルに基づく一般世界モデルを構築した。
視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。
- 参考スコア(独自算出の注目度): 23.22507419707926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typically, autonomous driving adopts a modular design, which divides the full
stack into perception, prediction, planning and control parts. Though
interpretable, such modular design tends to introduce a substantial amount of
redundancy. Recently, multimodal large language models (MLLM) and diffusion
techniques have demonstrated their superior performance on comprehension and
generation ability. In this paper, we first introduce the concept of
interleaved vision-action pair, which unifies the format of visual features and
control signals. Based on the vision-action pairs, we construct a general world
model based on MLLM and diffusion model for autonomous driving, termed
ADriver-I. It takes the vision-action pairs as inputs and autoregressively
predicts the control signal of the current frame. The generated control signals
together with the historical vision-action pairs are further conditioned to
predict the future frames. With the predicted next frame, ADriver-I performs
further control signal prediction. Such a process can be repeated infinite
times, ADriver-I achieves autonomous driving in the world created by itself.
Extensive experiments are conducted on nuScenes and our large-scale private
datasets. ADriver-I shows impressive performance compared to several
constructed baselines. We hope our ADriver-I can provide some new insights for
future autonomous driving and embodied intelligence.
- Abstract(参考訳): 通常、自律運転はモジュラー設計を採用し、完全なスタックを認識、予測、計画、制御部品に分割する。
このようなモジュラーデザインは解釈可能であるが、かなりの冗長性をもたらす傾向がある。
近年,マルチモーダル大規模言語モデル (MLLM) と拡散技術は,理解と生成能力において優れた性能を示した。
本稿では,まず視覚特徴と制御信号の形式を統一した視覚-動作ペアの概念を紹介する。
視覚と動作のペアに基づいて、自律運転のためのmllmと拡散モデルに基づく一般世界モデルを構築し、adriver-iと呼ぶ。
視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。
生成した制御信号と過去のビジョンアクションペアは、将来のフレームを予測するためにさらに条件付けされる。
予測された次のフレームでは、ADriver-Iはさらなる制御信号予測を行う。
このようなプロセスは無限に繰り返される可能性があり、ADriver-Iは自作の世界における自動運転を実現する。
nuSceneと大規模プライベートデータセットについて大規模な実験を行った。
adriver-iはいくつかのベースラインと比較して印象的なパフォーマンスを示している。
私たちは、ADriver-Iが将来の自動運転と具体化インテリジェンスに新たな洞察を与えることを期待しています。
関連論文リスト
- BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in
Autonomous Driving [65.04871316921327]
本稿では,自律運転システムの性能と信頼性を高める新しい自律運転システムを提案する。
DME-Driverは、意思決定者として強力な視覚言語モデル、制御信号生成者として計画指向認識モデルを利用する。
このデータセットを利用することで、論理的思考プロセスを通じて高精度な計画精度を実現する。
論文 参考訳(メタデータ) (2024-01-08T03:06:02Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。