論文の概要: ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
- arxiv url: http://arxiv.org/abs/2503.19755v1
- Date: Tue, 25 Mar 2025 15:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:07.459815
- Title: ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
- Title(参考訳): ORION:視覚言語指導行動生成による完全エンドツーエンド自動運転フレームワーク
- Authors: Haoyu Fu, Diankun Zhang, Zongchuang Zhao, Jianfeng Cui, Dingkang Liang, Chong Zhang, Dingyuan Zhang, Hongwei Xie, Bing Wang, Xiang Bai,
- Abstract要約: 視覚言語による行動生成による総合的E2E自律運転フレームワークORIONを提案する。
本手法は,Bench2Driveデータセットの課題に対して,77.74 Driving Score (DS) と54.62%の成功率 (SR) の顕著なクローズループ性能を実現する。
- 参考スコア(独自算出の注目度): 44.16465715911478
- License:
- Abstract: End-to-end (E2E) autonomous driving methods still struggle to make correct decisions in interactive closed-loop evaluation due to limited causal reasoning capability. Current methods attempt to leverage the powerful understanding and reasoning abilities of Vision-Language Models (VLMs) to resolve this dilemma. However, the problem is still open that few VLMs for E2E methods perform well in the closed-loop evaluation due to the gap between the semantic reasoning space and the purely numerical trajectory output in the action space. To tackle this issue, we propose ORION, a holistic E2E autonomous driving framework by vision-language instructed action generation. ORION uniquely combines a QT-Former to aggregate long-term history context, a Large Language Model (LLM) for driving scenario reasoning, and a generative planner for precision trajectory prediction. ORION further aligns the reasoning space and the action space to implement a unified E2E optimization for both visual question-answering (VQA) and planning tasks. Our method achieves an impressive closed-loop performance of 77.74 Driving Score (DS) and 54.62% Success Rate (SR) on the challenge Bench2Drive datasets, which outperforms state-of-the-art (SOTA) methods by a large margin of 14.28 DS and 19.61% SR.
- Abstract(参考訳): エンド・ツー・エンド(E2E)の自動運転手法は、因果推論能力に制限があるため、インタラクティブなクローズドループ評価において正しい判断を下すことに苦慮している。
現在の手法では、視覚言語モデル(VLM)の強力な理解と推論能力を活用して、このジレンマを解決する。
しかし, 動作空間における意味的推論空間と純粋に数値的な軌跡出力とのギャップにより, 閉ループ評価において, ごくわずかのVLMが良好に動作するという問題は未解決のままである。
この問題に対処するために,視覚言語による行動生成による総合的E2E自律運転フレームワークORIONを提案する。
ORIONは、QT-Formerを長期履歴コンテキストの集約に、シナリオ推論を駆動するためのLarge Language Model(LLM)と、精度の高い軌道予測のための生成プランナーを独自に組み合わせている。
ORIONはさらに推論空間と行動空間を調整し、視覚的質問応答(VQA)と計画タスクの両方に統一されたE2E最適化を実装する。
提案手法は,運転スコア(DS)77.74と成功率(SR)54.62%で,最先端(SOTA)手法を14.28 DSと19.61% SRで上回り,優れたクローズループ性能を実現する。
関連論文リスト
- HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z) - Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving [59.705635382104454]
本稿では,E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを紹介する。
我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。
論文 参考訳(メタデータ) (2024-06-06T09:12:30Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - Deep Q-Network Based Decision Making for Autonomous Driving [1.0152838128195467]
本稿では,Q-Networksと制御理論からの洞察を組み合わせることで,高速道路のシナリオで自動運転車を安全にナビゲートする方法を提案する。
ディープQネットワークは、軌道プランナーの目標を提案することにより、中心的な意思決定ユニットとして機能するようにシミュレーションで訓練される。
経年移動のための制御装置と組み合わせて生成された軌道を用いて車線変更操作を行う。
論文 参考訳(メタデータ) (2023-03-21T07:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。