論文の概要: Reason2Drive: Towards Interpretable and Chain-based Reasoning for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.03661v1
- Date: Wed, 6 Dec 2023 18:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 13:59:39.317399
- Title: Reason2Drive: Towards Interpretable and Chain-based Reasoning for
Autonomous Driving
- Title(参考訳): reason2drive: 自動運転のための解釈可能・チェーンベース推論に向けて
- Authors: Ming Nie, Renyuan Peng, Chunwei Wang, Xinyue Cai, Jianhua Han, Hang
Xu, Li Zhang
- Abstract要約: Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
- 参考スコア(独自算出の注目度): 40.20124828096732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) have garnered increasing interest in
autonomous driving areas, due to their advanced capabilities in complex
reasoning tasks essential for highly autonomous vehicle behavior. Despite their
potential, research in autonomous systems is hindered by the lack of datasets
with annotated reasoning chains that explain the decision-making processes in
driving. To bridge this gap, we present Reason2Drive, a benchmark dataset with
over 600K video-text pairs, aimed at facilitating the study of interpretable
reasoning in complex driving environments. We distinctly characterize the
autonomous driving process as a sequential combination of perception,
prediction, and reasoning steps, and the question-answer pairs are
automatically collected from a diverse range of open-source outdoor driving
datasets, including nuScenes, Waymo and ONCE. Moreover, we introduce a novel
aggregated evaluation metric to assess chain-based reasoning performance in
autonomous systems, addressing the semantic ambiguities of existing metrics
such as BLEU and CIDEr. Based on the proposed benchmark, we conduct experiments
to assess various existing VLMs, revealing insights into their reasoning
capabilities. Additionally, we develop an efficient approach to empower VLMs to
leverage object-level perceptual elements in both feature extraction and
prediction, further enhancing their reasoning accuracy. The code and dataset
will be released.
- Abstract(参考訳): 大型ビジョン言語モデル(vlms)は、高度に自律的な車両行動に必要な複雑な推論タスクの高度な能力により、自動運転分野への関心が高まっている。
その可能性にもかかわらず、自律システムの研究は、運転中の意思決定プロセスを説明する注釈付き推論チェーンによるデータセットの欠如によって妨げられている。
このギャップを埋めるために、複雑な運転環境における解釈可能な推論の研究を容易にすることを目的とした、600万以上のビデオテキストペアを備えたベンチマークデータセットであるReason2Driveを紹介する。
我々は、自律運転過程を知覚、予測、推論ステップの逐次組み合わせとして特徴付け、質問と回答のペアは、nuScenes、Waymo、ONCEを含む様々なオープンソース屋外運転データセットから自動的に収集される。
さらに, bleu や cider などの既存指標の意味的曖昧さに対処し, 自律システムにおける連鎖的推論性能を評価するための新しい総合評価指標を提案する。
提案するベンチマークに基づいて,既存のvlmの評価実験を行い,その推論能力に関する知見を明らかにする。
さらに,VLMが特徴抽出と予測の両方においてオブジェクトレベルの知覚的要素を活用するための効率的なアプローチを開発し,その推論精度をさらに高める。
コードとデータセットがリリースされる。
関連論文リスト
- Hybrid Reasoning Based on Large Language Models for Autonomous Car
Driving [15.711561029504406]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Open-sourced Data Ecosystem in Autonomous Driving: the Present and
Future [131.69699438604533]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。
高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。
また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (2023-12-06T10:46:53Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - End-to-end Autonomous Driving: Challenges and Frontiers [46.05011954549315]
自動運転コミュニティは、エンドツーエンドのアルゴリズムフレームワークを採用するアプローチの急速な成長を目撃している。
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、250以上の論文を包括的に分析する。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - AutoFed: Heterogeneity-Aware Federated Multimodal Learning for Robust
Autonomous Driving [15.486799633600423]
AutoFedは、自動運転車のマルチモーダルセンサーデータをフル活用するためのフレームワークである。
本研究では, 未知の物体を背景として誤って扱うことを避けるために, 擬似ラベルを用いた新しいモデルを提案する。
また、欠落したデータモダリティを補うために、オートエンコーダに基づくデータ計算手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T01:31:53Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。
2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文 参考訳(メタデータ) (2020-11-15T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。