論文の概要: Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.03661v3
- Date: Sat, 20 Jul 2024 15:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:16:55.000248
- Title: Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving
- Title(参考訳): Reason2Drive: 自律運転のための解釈型および連鎖型推論を目指して
- Authors: Ming Nie, Renyuan Peng, Chunwei Wang, Xinyue Cai, Jianhua Han, Hang Xu, Li Zhang,
- Abstract要約: Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
- 参考スコア(独自算出の注目度): 38.28159034562901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) have garnered increasing interest in autonomous driving areas, due to their advanced capabilities in complex reasoning tasks essential for highly autonomous vehicle behavior. Despite their potential, research in autonomous systems is hindered by the lack of datasets with annotated reasoning chains that explain the decision-making processes in driving. To bridge this gap, we present Reason2Drive, a benchmark dataset with over 600K video-text pairs, aimed at facilitating the study of interpretable reasoning in complex driving environments. We distinctly characterize the autonomous driving process as a sequential combination of perception, prediction, and reasoning steps, and the question-answer pairs are automatically collected from a diverse range of open-source outdoor driving datasets, including nuScenes, Waymo and ONCE. Moreover, we introduce a novel aggregated evaluation metric to assess chain-based reasoning performance in autonomous systems, addressing the semantic ambiguities of existing metrics such as BLEU and CIDEr. Based on the proposed benchmark, we conduct experiments to assess various existing VLMs, revealing insights into their reasoning capabilities. Additionally, we develop an efficient approach to empower VLMs to leverage object-level perceptual elements in both feature extraction and prediction, further enhancing their reasoning accuracy. The code and dataset will be released.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、自動運転車の振る舞いに不可欠な複雑な推論タスクにおける高度な能力のため、自動運転分野への関心が高まっている。
その可能性にもかかわらず、自律システムの研究は、運転における意思決定プロセスを説明する注釈付き推論チェーンを持つデータセットの欠如によって妨げられている。
このギャップを埋めるために、複雑な運転環境における解釈可能な推論の研究を容易にすることを目的として、600万以上のビデオテキストペアを備えたベンチマークデータセットであるReason2Driveを紹介した。
我々は、自律運転過程を知覚、予測、推論ステップの逐次組み合わせとして特徴付け、質問と回答のペアは、nuScenes、Waymo、ONCEを含む様々なオープンソース屋外運転データセットから自動的に収集される。
さらに,自律システムにおけるチェーンベースの推論性能を評価するために,BLEUやCIDErといった既存のメトリクスのセマンティックアンビグスに対処する新たなアグリゲーション評価指標を導入する。
提案したベンチマークに基づいて,既存のVLMの評価実験を行い,その推論能力に関する知見を明らかにした。
さらに,VLMに特徴抽出と予測の両方においてオブジェクトレベルの知覚的要素を活用するための効率的なアプローチを開発し,その推論精度をさらに高める。
コードとデータセットがリリースされる。
関連論文リスト
- Exploring the Causality of End-to-End Autonomous Driving [57.631400236930375]
本稿では,エンドツーエンド自動運転の因果関係を探究し,分析するための包括的アプローチを提案する。
私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。
論文 参考訳(メタデータ) (2024-07-09T04:56:11Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving [14.64475022650084]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - AutoFed: Heterogeneity-Aware Federated Multimodal Learning for Robust
Autonomous Driving [15.486799633600423]
AutoFedは、自動運転車のマルチモーダルセンサーデータをフル活用するためのフレームワークである。
本研究では, 未知の物体を背景として誤って扱うことを避けるために, 擬似ラベルを用いた新しいモデルを提案する。
また、欠落したデータモダリティを補うために、オートエンコーダに基づくデータ計算手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T01:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。