論文の概要: 2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model
- arxiv url: http://arxiv.org/abs/2509.02659v1
- Date: Tue, 02 Sep 2025 17:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.287212
- Title: 2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model
- Title(参考訳): 2nd Place Solution for CVPR2024 E2E Challenge: End-to-End autonomous Driving Using Vision Language Model
- Authors: Zilong Guo, Yi Luo, Long Sha, Dongxu Wang, Panqu Wang, Chenyang Xu, Yi Yang,
- Abstract要約: エンド・ツー・エンドのアーキテクチャ設計と知識のあるVLMを組み合わせることで、駆動タスクにおいて優れた性能が得られることを示す。
私たちの方法では1台のカメラしか使用せず、リーダーボード全体で最高のカメラのみのソリューションである点に注意が必要だ。
- 参考スコア(独自算出の注目度): 21.811872482011534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving has drawn tremendous attention recently. Many works focus on using modular deep neural networks to construct the end-to-end archi-tecture. However, whether using powerful large language models (LLM), especially multi-modality Vision Language Models (VLM) could benefit the end-to-end driving tasks remain a question. In our work, we demonstrate that combining end-to-end architectural design and knowledgeable VLMs yield impressive performance on the driving tasks. It is worth noting that our method only uses a single camera and is the best camera-only solution across the leaderboard, demonstrating the effectiveness of vision-based driving approach and the potential for end-to-end driving tasks.
- Abstract(参考訳): エンドツーエンドの自動運転は、最近大きな注目を集めている。
多くの研究は、モジュラーディープニューラルネットワークを使用してエンドツーエンドのアーチテクチュアを構築することに重点を置いている。
しかし、強力な大規模言語モデル(LLM)、特にマルチモーダリティビジョン言語モデル(VLM)を使用することが、エンドツーエンドの運転タスクに利益をもたらすかどうかには疑問が残る。
本研究では,エンド・ツー・エンドのアーキテクチャ設計と知識のあるVLMを組み合わせることで,運転作業において優れた性能が得られることを示す。
我々の手法は1台のカメラしか使用せず、リーダーボード全体で最高のカメラのみのソリューションであり、ビジョンベースの運転方法の有効性とエンドツーエンド運転の可能性を実証している点に注意が必要だ。
関連論文リスト
- LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - EMMA: End-to-End Multimodal Model for Autonomous Driving [56.972452552944056]
本稿では,自動走行のためのエンドツーエンドマルチモーダルモデルEMMAを紹介する。
EMMAはマルチモーダルな大規模言語モデル基盤に基づいて構築され、生のカメラセンサーデータを様々な駆動特有の出力に直接マッピングする。
論文 参考訳(メタデータ) (2024-10-30T17:46:31Z) - MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [11.045411890043919]
視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:01Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z) - CERBERUS: Simple and Effective All-In-One Automotive Perception Model
with Multi Task Learning [4.622165486890318]
車両内組み込みコンピューティングプラットフォームは、個々のタスクに対して重いモデルを実行するのに必要な計算労力に対処できない。
CERBERUSは、マルチタスク学習アプローチを利用して、単一推論のコストで複数の知覚タスクの実行を可能にする軽量モデルである。
論文 参考訳(メタデータ) (2022-10-03T08:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。