論文の概要: CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.10845v1
- Date: Mon, 19 Aug 2024 09:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:35:12.692384
- Title: CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
- Title(参考訳): CoVLA: 自律運転のための包括的ビジョンランゲージ・アクションデータセット
- Authors: Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, Kohei Watanabe, Shunsuke Aoki, Issei Yamamoto,
- Abstract要約: CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
- 参考スコア(独自算出の注目度): 1.727597257312416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving, particularly navigating complex and unanticipated scenarios, demands sophisticated reasoning and planning capabilities. While Multi-modal Large Language Models (MLLMs) offer a promising avenue for this, their use has been largely confined to understanding complex environmental contexts or generating high-level driving commands, with few studies extending their application to end-to-end path planning. A major research bottleneck is the lack of large-scale annotated datasets encompassing vision, language, and action. To address this issue, we propose CoVLA (Comprehensive Vision-Language-Action) Dataset, an extensive dataset comprising real-world driving videos spanning more than 80 hours. This dataset leverages a novel, scalable approach based on automated data processing and a caption generation pipeline to generate accurate driving trajectories paired with detailed natural language descriptions of driving environments and maneuvers. This approach utilizes raw in-vehicle sensor data, allowing it to surpass existing datasets in scale and annotation richness. Using CoVLA, we investigate the driving capabilities of MLLMs that can handle vision, language, and action in a variety of driving scenarios. Our results illustrate the strong proficiency of our model in generating coherent language and action outputs, emphasizing the potential of Vision-Language-Action (VLA) models in the field of autonomous driving. This dataset establishes a framework for robust, interpretable, and data-driven autonomous driving systems by providing a comprehensive platform for training and evaluating VLA models, contributing to safer and more reliable self-driving vehicles. The dataset is released for academic purpose.
- Abstract(参考訳): 自律運転、特に複雑な予測外のシナリオをナビゲートするためには、高度な推論と計画能力が必要である。
MLLM(Multi-modal Large Language Models)は将来性のある方法を提供しているが、それらの用途は複雑な環境状況を理解したり、高レベルの駆動コマンドを生成することに限定されている。
主要な研究ボトルネックは、視覚、言語、アクションを含む大規模な注釈付きデータセットの欠如である。
この問題に対処するために,80時間以上の実世界の運転映像からなる広範囲なデータセットであるCoVLA(Comprehensive Vision-Language-Action)データセットを提案する。
このデータセットは、自動データ処理とキャプション生成パイプラインに基づく、新しいスケーラブルなアプローチを活用して、運転環境と操作に関する詳細な自然言語記述と組み合わせた正確な運転軌跡を生成する。
このアプローチでは、生の車載センサーデータを利用することで、既存のデータセットをスケールとアノテーションの豊かさで超えることができる。
CoVLAを用いて,様々な運転シナリオにおける視覚,言語,行動を処理するMLLMの駆動能力について検討する。
本研究は,自律運転の分野でのビジョン・ランゲージ・アクション(VLA)モデルの可能性を強調し,コヒーレント言語と行動出力の生成におけるモデルの有効性を示す。
このデータセットは、VLAモデルをトレーニングし評価するための包括的なプラットフォームを提供することで、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立し、より安全で信頼性の高い自動運転車に寄与する。
データセットは学術目的のためにリリースされている。
関連論文リスト
- LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
大規模言語モデル(LLM)は、広い世界知識と強力な推論スキルを備えており、ドメイン間の多様なタスクに対処することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LMDrive: Closed-Loop End-to-End Driving with Large Language Models [37.910449013471656]
大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
本稿では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
論文 参考訳(メタデータ) (2023-12-12T18:24:15Z) - Vision Language Models in Autonomous Driving: A Survey and Outlook [26.70381732289961]
視覚言語モデル(VLM)は、その優れた性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。
本稿では,この領域における視覚言語モデルの進歩を包括的かつ体系的に調査し,認識と理解,ナビゲーションと計画,意思決定と制御,エンドツーエンドの自動運転,データ生成などを紹介する。
論文 参考訳(メタデータ) (2023-10-22T21:06:10Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。