論文の概要: ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
- arxiv url: http://arxiv.org/abs/2503.19755v1
- Date: Tue, 25 Mar 2025 15:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 02:13:56.527136
- Title: ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
- Title(参考訳): ORION:視覚言語指導行動生成による完全エンドツーエンド自動運転フレームワーク
- Authors: Haoyu Fu, Diankun Zhang, Zongchuang Zhao, Jianfeng Cui, Dingkang Liang, Chong Zhang, Dingyuan Zhang, Hongwei Xie, Bing Wang, Xiang Bai,
- Abstract要約: 視覚言語による行動生成による総合的E2E自律運転フレームワークORIONを提案する。
本手法は,Bench2Driveデータセットの課題に対して,77.74 Driving Score (DS) と54.62%の成功率 (SR) の顕著なクローズループ性能を実現する。
- 参考スコア(独自算出の注目度): 44.16465715911478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) autonomous driving methods still struggle to make correct decisions in interactive closed-loop evaluation due to limited causal reasoning capability. Current methods attempt to leverage the powerful understanding and reasoning abilities of Vision-Language Models (VLMs) to resolve this dilemma. However, the problem is still open that few VLMs for E2E methods perform well in the closed-loop evaluation due to the gap between the semantic reasoning space and the purely numerical trajectory output in the action space. To tackle this issue, we propose ORION, a holistic E2E autonomous driving framework by vision-language instructed action generation. ORION uniquely combines a QT-Former to aggregate long-term history context, a Large Language Model (LLM) for driving scenario reasoning, and a generative planner for precision trajectory prediction. ORION further aligns the reasoning space and the action space to implement a unified E2E optimization for both visual question-answering (VQA) and planning tasks. Our method achieves an impressive closed-loop performance of 77.74 Driving Score (DS) and 54.62% Success Rate (SR) on the challenge Bench2Drive datasets, which outperforms state-of-the-art (SOTA) methods by a large margin of 14.28 DS and 19.61% SR.
- Abstract(参考訳): エンド・ツー・エンド(E2E)の自動運転手法は、因果推論能力に制限があるため、インタラクティブなクローズドループ評価において正しい判断を下すことに苦慮している。
現在の手法では、視覚言語モデル(VLM)の強力な理解と推論能力を活用して、このジレンマを解決する。
しかし, 動作空間における意味的推論空間と純粋に数値的な軌跡出力とのギャップにより, 閉ループ評価において, ごくわずかのVLMが良好に動作するという問題は未解決のままである。
この問題に対処するために,視覚言語による行動生成による総合的E2E自律運転フレームワークORIONを提案する。
ORIONは、QT-Formerを長期履歴コンテキストの集約に、シナリオ推論を駆動するためのLarge Language Model(LLM)と、精度の高い軌道予測のための生成プランナーを独自に組み合わせている。
ORIONはさらに推論空間と行動空間を調整し、視覚的質問応答(VQA)と計画タスクの両方に統一されたE2E最適化を実装する。
提案手法は,運転スコア(DS)77.74と成功率(SR)54.62%で,最先端(SOTA)手法を14.28 DSと19.61% SRで上回り,優れたクローズループ性能を実現する。
関連論文リスト
- Two Tasks, One Goal: Uniting Motion and Planning for Excellent End To End Autonomous Driving Performance [14.665143402317685]
かつてのエンドツーエンドの自動運転アプローチは、しばしば計画と動きのタスクを分離し、それらを別々のモジュールとして扱う。
本稿では,新しい2段階軌道生成フレームワークであるTTOGを提案する。
第1段階では、多種多様な軌道候補が生成され、第2段階では、車両の状態情報を通じてこれらの候補を精製することに焦点を当てる。
周囲の車両状態の問題を緩和するため、TTOGは自車用データ訓練状態推定器を採用し、その後他の車両に拡張した。
論文 参考訳(メタデータ) (2025-04-17T05:52:35Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving [17.939192289319056]
本稿では,条件付き画像生成タスクとして自律運転を再定義する拡散確率モデルであるDiffADを紹介する。
不均一な目標を統一された鳥眼ビュー(BEV)に固定し、その潜伏分布をモデル化することにより、DiffADは様々な駆動目標を統一する。
逆プロセスは生成したBEV画像を反復的に洗練し、より堅牢で現実的な運転行動をもたらす。
論文 参考訳(メタデータ) (2025-03-15T15:23:35Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving [59.705635382104454]
本稿では,E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを紹介する。
我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。
論文 参考訳(メタデータ) (2024-06-06T09:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。