論文の概要: CarLLaVA: Vision language models for camera-only closed-loop driving
- arxiv url: http://arxiv.org/abs/2406.10165v1
- Date: Fri, 14 Jun 2024 16:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:46:51.837902
- Title: CarLLaVA: Vision language models for camera-only closed-loop driving
- Title(参考訳): CarLLaVA:カメラ専用クローズドループ駆動のための視覚言語モデル
- Authors: Katrin Renz, Long Chen, Ana-Maria Marcu, Jan Hünermann, Benoit Hanotte, Alice Karnsund, Jamie Shotton, Elahe Arani, Oleg Sinavski,
- Abstract要約: 本稿では,自律運転のための視覚言語モデル(VLM)であるCarLLaVAについて紹介する。
CarLLaVAは、LLaVA VLMとLLaMAアーキテクチャのビジョンエンコーダをバックボーンとして使用し、最先端の閉ループ駆動性能を実現する。
本研究は、駆動出力とともに言語解説の予測に関する予備的な結果を示す。
- 参考スコア(独自算出の注目度): 14.852612275631671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we present CarLLaVA, a Vision Language Model (VLM) for autonomous driving, developed for the CARLA Autonomous Driving Challenge 2.0. CarLLaVA uses the vision encoder of the LLaVA VLM and the LLaMA architecture as backbone, achieving state-of-the-art closed-loop driving performance with only camera input and without the need for complex or expensive labels. Additionally, we show preliminary results on predicting language commentary alongside the driving output. CarLLaVA uses a semi-disentangled output representation of both path predictions and waypoints, getting the advantages of the path for better lateral control and the waypoints for better longitudinal control. We propose an efficient training recipe to train on large driving datasets without wasting compute on easy, trivial data. CarLLaVA ranks 1st place in the sensor track of the CARLA Autonomous Driving Challenge 2.0 outperforming the previous state of the art by 458% and the best concurrent submission by 32.6%.
- Abstract(参考訳): 本稿では,自律運転のための視覚言語モデル(VLM)であるCarLLaVAについて紹介する。
CarLLaVAは、LLaVA VLMとLLaMAアーキテクチャのビジョンエンコーダをバックボーンとして使用し、カメラ入力のみで、複雑なラベルや高価なラベルを必要とせず、最先端のクローズドループ駆動性能を実現する。
さらに、駆動出力とともに、言語解説の予測に関する予備的な結果を示す。
CarLLaVAは経路予測と経路ポイントの両方の半遠方出力表現を使用し、経路の利点は横方向制御の改善と長手方向制御の改善である。
簡単なデータに計算を無駄にすることなく、大規模な運転データセットでトレーニングする効率的なトレーニングレシピを提案する。
カルラバはCARLA Autonomous Driving Challenge 2.0のセンサートラックで458%、コンカレントエントリー32.6%を上回った。
関連論文リスト
- HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Looking Inside Out: Anticipating Driver Intent From Videos [20.501288763809036]
ドライバーの意図は、ドライバーが危険な操作を試みている場合に車両を取り巻く警告など、道路の安全を改善するために利用することができる。
本研究では,キャビン内および外部カメラデータを利用して,将来の運転行動を予測するためのSOTA(State-of-the-art)性能を改善する手法を提案する。
我々のモデルは、既存のアプローチよりも正確により早くドライバーの操縦を予測し、精度は87.5%、平均予測時間は4.35秒前である。
論文 参考訳(メタデータ) (2023-12-03T16:24:50Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Real Time Monocular Vehicle Velocity Estimation using Synthetic Data [78.85123603488664]
移動車に搭載されたカメラから車両の速度を推定する問題を考察する。
そこで本研究では,まずオフ・ザ・シェルフ・トラッカーを用いて車両バウンディングボックスを抽出し,その後,小型ニューラルネットワークを用いて車両速度を回帰する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:10:27Z) - YOLOP: You Only Look Once for Panoptic Driving Perception [21.802146960999394]
本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。
特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。
私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。
論文 参考訳(メタデータ) (2021-08-25T14:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。