論文の概要: Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2410.22313v1
- Date: Tue, 29 Oct 2024 17:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:25.884410
- Title: Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
- Title(参考訳): Senna: 大規模ビジョンランゲージモデルとエンドツーエンドの自動運転
- Authors: Bo Jiang, Shaoyu Chen, Bencheng Liao, Xingyu Zhang, Wei Yin, Qian Zhang, Chang Huang, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本稿では,LVLMとエンドツーエンドモデル(Senna-E2E)を組み合わせた自動運転システムであるSennaについて述べる。
Senna-VLMは自然言語で計画決定を生成し、Senna-E2Eは正確な軌道を予測する。
大規模なデータセットDriveXの事前トレーニングとnuScenesの微調整により、セナは事前トレーニングなしで平均計画誤差を27.12%、衝突速度を33.33%削減した。
- 参考スコア(独自算出の注目度): 41.07462110206354
- License:
- Abstract: End-to-end autonomous driving demonstrates strong planning capabilities with large-scale data but still struggles in complex, rare scenarios due to limited commonsense. In contrast, Large Vision-Language Models (LVLMs) excel in scene understanding and reasoning. The path forward lies in merging the strengths of both approaches. Previous methods using LVLMs to predict trajectories or control signals yield suboptimal results, as LVLMs are not well-suited for precise numerical predictions. This paper presents Senna, an autonomous driving system combining an LVLM (Senna-VLM) with an end-to-end model (Senna-E2E). Senna decouples high-level planning from low-level trajectory prediction. Senna-VLM generates planning decisions in natural language, while Senna-E2E predicts precise trajectories. Senna-VLM utilizes a multi-image encoding approach and multi-view prompts for efficient scene understanding. Besides, we introduce planning-oriented QAs alongside a three-stage training strategy, which enhances Senna-VLM's planning performance while preserving commonsense. Extensive experiments on two datasets show that Senna achieves state-of-the-art planning performance. Notably, with pre-training on a large-scale dataset DriveX and fine-tuning on nuScenes, Senna significantly reduces average planning error by 27.12% and collision rate by 33.33% over model without pre-training. We believe Senna's cross-scenario generalization and transferability are essential for achieving fully autonomous driving. Code and models will be released at https://github.com/hustvl/Senna.
- Abstract(参考訳): エンドツーエンドの自動運転は、大規模なデータで強力な計画能力を示すが、限られたコモンセンスのため、依然として複雑で稀なシナリオで苦労している。
対照的に、LVLM(Large Vision-Language Models)はシーン理解と推論において優れている。
前進する道は、両方のアプローチの強みをマージすることにあります。
LVLMは正確な数値予測には適さないため、従来のLVLMを用いた軌道や制御信号の予測には準最適であった。
本稿では,LVLM(Senna-VLM)とエンドツーエンドモデル(Senna-E2E)を組み合わせた自動運転システムであるSennaについて述べる。
Sennaは低レベルの軌道予測から高レベルの計画を切り離す。
Senna-VLMは自然言語で計画決定を生成し、Senna-E2Eは正確な軌道を予測する。
Senna-VLMは、マルチイメージエンコーディングアプローチとマルチビュープロンプトを利用して、効率的なシーン理解を実現している。
さらに,コモンセンスを維持しつつ,セナ・VLMの計画性能を向上させる3段階のトレーニング戦略とともに,計画指向QAを導入する。
2つのデータセットに対する大規模な実験は、Sennaが最先端の計画性能を達成することを示している。
特に、大規模なデータセットDriveXの事前トレーニングとnuScenesの微調整により、セナは平均的な計画誤差を27.12%、衝突速度を33.33%削減した。
我々はセナのクロスシナリオの一般化とトランスファービリティが完全自律運転を実現する上で不可欠であると考えている。
コードとモデルはhttps://github.com/hustvl/Senna.comでリリースされる。
関連論文リスト
- HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesデータセットで行った実験は、DiFSDの優れた計画性能と優れた効率を示す。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - ADriver-I: A General World Model for Autonomous Driving [23.22507419707926]
視覚特徴と制御信号の形式を統一するインターリーブド・ビジョン・アクション・ペアの概念を導入する。
ADriver-I と呼ばれる自律運転のためのMLLMと拡散モデルに基づく一般世界モデルを構築した。
視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。
論文 参考訳(メタデータ) (2023-11-22T17:44:29Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。
VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。
VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文 参考訳(メタデータ) (2023-03-21T17:59:22Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。