論文の概要: Doe-1: Closed-Loop Autonomous Driving with Large World Model
- arxiv url: http://arxiv.org/abs/2412.09627v1
- Date: Thu, 12 Dec 2024 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:38.759995
- Title: Doe-1: Closed-Loop Autonomous Driving with Large World Model
- Title(参考訳): Doe-1:大世界モデルによるクローズドループ自動運転
- Authors: Wenzhao Zheng, Zetian Xia, Yuanhui Huang, Sicheng Zuo, Jie Zhou, Jiwen Lu,
- Abstract要約: 統合された認識,予測,計画のための大規模駆動wOrld modEl(Doe-1)を提案する。
我々は自由形式のテキストを認識に使用し、画像トークンを用いてRGB空間内での予測を直接生成する。
計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
- 参考スコア(独自算出の注目度): 63.99937807085461
- License:
- Abstract: End-to-end autonomous driving has received increasing attention due to its potential to learn from large amounts of data. However, most existing methods are still open-loop and suffer from weak scalability, lack of high-order interactions, and inefficient decision-making. In this paper, we explore a closed-loop framework for autonomous driving and propose a large Driving wOrld modEl (Doe-1) for unified perception, prediction, and planning. We formulate autonomous driving as a next-token generation problem and use multi-modal tokens to accomplish different tasks. Specifically, we use free-form texts (i.e., scene descriptions) for perception and generate future predictions directly in the RGB space with image tokens. For planning, we employ a position-aware tokenizer to effectively encode action into discrete tokens. We train a multi-modal transformer to autoregressively generate perception, prediction, and planning tokens in an end-to-end and unified manner. Experiments on the widely used nuScenes dataset demonstrate the effectiveness of Doe-1 in various tasks including visual question-answering, action-conditioned video generation, and motion planning. Code: https://github.com/wzzheng/Doe.
- Abstract(参考訳): 大量のデータから学ぶ可能性から、エンドツーエンドの自動運転に注目が集まっている。
しかし、既存のほとんどの手法は依然としてオープンループであり、スケーラビリティの弱さ、高次相互作用の欠如、非効率な意思決定に悩まされている。
本稿では,自律運転のためのクローズドループフレームワークを探索し,統合された認識,予測,計画のための大規模運転用wOrld modEl(Doe-1)を提案する。
我々は、次世代問題として自律運転を定式化し、異なるタスクを達成するためにマルチモーダルトークンを使用する。
具体的には,自由形式のテキスト(シーン記述など)を認識に使用し,画像トークンを用いてRGB空間内での予測を直接生成する。
計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
我々はマルチモーダルトランスを訓練し、エンドツーエンドで統一された方法で認識、予測、計画トークンを自動回帰的に生成する。
広く使われているnuScenesデータセットの実験では、視覚的質問応答、アクション条件付きビデオ生成、モーションプランニングなど、様々なタスクにおけるDoe-1の有効性が示されている。
コード:https://github.com/wzzheng/Doe.com
関連論文リスト
- Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。
本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。
シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:07:53Z) - GPD-1: Generative Pre-training for Driving [77.06803277735132]
本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。
それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。
GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文 参考訳(メタデータ) (2024-12-11T18:59:51Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - ADriver-I: A General World Model for Autonomous Driving [23.22507419707926]
視覚特徴と制御信号の形式を統一するインターリーブド・ビジョン・アクション・ペアの概念を導入する。
ADriver-I と呼ばれる自律運転のためのMLLMと拡散モデルに基づく一般世界モデルを構築した。
視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。
論文 参考訳(メタデータ) (2023-11-22T17:44:29Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - ADAPT: Action-aware Driving Caption Transformer [24.3857045947027]
本稿では,自律車体制御と行動の意思決定ステップごとにユーザフレンドリーな自然言語ナレーションと推論を提供する,エンド・ツー・エンドのトランスフォーマー・ベースアーキテクチャであるADAPTを提案する。
BDD-Xデータセットの実験では、自動メトリクスと人的評価の両方でADAPTフレームワークの最先端のパフォーマンスが実証されている。
実世界のアプリケーションで提案するフレームワークの実現可能性を説明するために,実車用ビデオの入力を取り入れ,アクションナレーションと推論をリアルタイムで出力する,新しい展開可能なシステムを構築した。
論文 参考訳(メタデータ) (2023-02-01T18:59:19Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。