論文の概要: VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.20108v2
- Date: Sat, 01 Mar 2025 23:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:56.695445
- Title: VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers
- Title(参考訳): VDT-Auto:VLM誘導拡散変換器を用いたエンドツーエンド自動運転
- Authors: Ziang Guo, Konstantin Gubernatorov, Selamawit Asfaw, Zakhar Yagudin, Dzmitry Tsetserukou,
- Abstract要約: 動的環境とコーナーケースは、エゴ車の意思決定の堅牢性に重大な課題をもたらす。
本稿では,拡散過程の条件付けのために,環境を幾何学的に,文脈的に解析する新しいパイプラインVDT-Autoを紹介する。
VDT-Autoは平均L2誤差で0.52m, nuScenesオープンループ計画評価で平均衝突速度で21%を達成した。
- 参考スコア(独自算出の注目度): 2.332328100695052
- License:
- Abstract: In autonomous driving, dynamic environment and corner cases pose significant challenges to the robustness of ego vehicle's decision-making. To address these challenges, commencing with the representation of state-action mapping in the end-to-end autonomous driving paradigm, we introduce a novel pipeline, VDT-Auto. Leveraging the advancement of the state understanding of Visual Language Model (VLM), incorporating with diffusion Transformer-based action generation, our VDT-Auto parses the environment geometrically and contextually for the conditioning of the diffusion process. Geometrically, we use a bird's-eye view (BEV) encoder to extract feature grids from the surrounding images. Contextually, the structured output of our fine-tuned VLM is processed into textual embeddings and noisy paths. During our diffusion process, the added noise for the forward process is sampled from the noisy path output of the fine-tuned VLM, while the extracted BEV feature grids and embedded texts condition the reverse process of our diffusion Transformers. Our VDT-Auto achieved 0.52m on average L2 errors and 21% on average collision rate in the nuScenes open-loop planning evaluation. Moreover, the real-world demonstration exhibited prominent generalizability of our VDT-Auto. The code and dataset will be released after acceptance.
- Abstract(参考訳): 自律運転では、動的環境とコーナーケースは、エゴ車の意思決定の堅牢性に重大な課題をもたらす。
これらの課題に対処するため、エンド・ツー・エンドの自動運転パラダイムにおける状態-行動マッピングの表現と合わせて、新しいパイプラインであるVDT-Autoを導入する。
VDT-Autoは,視覚言語モデル(VLM)の状態理解の進歩を活用し,拡散トランスフォーマーに基づく行動生成を取り入れ,拡散過程の条件付けを幾何学的・文脈的に解析する。
幾何学的には、鳥眼ビュー(BEV)エンコーダを用いて、周囲の画像から特徴格子を抽出する。
文脈的に、細調整されたVLMの構造化出力は、テキスト埋め込みとノイズパスに処理される。
拡散過程において, 拡散変換器の逆過程を条件としたBEV特徴格子と組込みテキストに対して, 微調整VLMのノイズパス出力から前方処理用付加ノイズをサンプリングする。
VDT-Autoは平均L2誤差で0.52m, nuScenesオープンループ計画評価で平均衝突速度で21%を達成した。
さらに、実世界のデモでは、VDT-Autoの顕著な一般化性が示された。
コードとデータセットは受け入れた後にリリースされる。
関連論文リスト
- From Dashcam Videos to Driving Simulations: Stress Testing Automated Vehicles against Rare Events [5.132984904858975]
現実的な運転シナリオを用いたシミュレーションにおける自動運転システム(ADS)のテストは、その性能を検証する上で重要である。
本稿では,現実の自動車事故映像の詳細なシミュレーションシナリオへの変換を自動化する新しいフレームワークを提案する。
予備結果は,完全自動化と人的介入を伴わず,リアルタイム変換を数分で完了させるという,かなりの時間効率を示した。
論文 参考訳(メタデータ) (2024-11-25T01:01:54Z) - WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [13.616763172038846]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。
提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。
提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-02T16:28:41Z) - VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic
Planning [42.681012361021224]
VADv2は確率計画に基づくエンドツーエンドの駆動モデルである。
ルールベースのラッパーなしでも、完全にエンドツーエンドで安定して実行される。
論文 参考訳(メタデータ) (2024-02-20T18:55:09Z) - Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for
Autonomous Driving with Multi-Task Learning [16.241116794114525]
本稿では,複数のRGB-Dカメラ表現を融合させるアルゴリズムであるLeTFuserを紹介する。
認識と制御を同時に行うためには,マルチタスク学習を利用する。
論文 参考訳(メタデータ) (2023-10-19T20:09:08Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。