論文の概要: ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models
- arxiv url: http://arxiv.org/abs/2409.00301v1
- Date: Fri, 30 Aug 2024 23:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:46:49.791942
- Title: ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models
- Title(参考訳): ContextVLM:視覚言語モデルを用いた自律走行のためのゼロショットとFewショットコンテキスト理解
- Authors: Shounak Sural, Naren, Ragunathan Rajkumar,
- Abstract要約: 視覚言語モデルを用いてゼロショットと少数ショットのアプローチを用いてコンテキストを検出するContextVLMというフレームワークを提案する。
ContextVLMは、我々のデータセット上で95%以上の精度で、関連する駆動コンテキストを確実に検出することができる。
- 参考スコア(独自算出の注目度): 3.8028747063484594
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In recent years, there has been a notable increase in the development of autonomous vehicle (AV) technologies aimed at improving safety in transportation systems. While AVs have been deployed in the real-world to some extent, a full-scale deployment requires AVs to robustly navigate through challenges like heavy rain, snow, low lighting, construction zones and GPS signal loss in tunnels. To be able to handle these specific challenges, an AV must reliably recognize the physical attributes of the environment in which it operates. In this paper, we define context recognition as the task of accurately identifying environmental attributes for an AV to appropriately deal with them. Specifically, we define 24 environmental contexts capturing a variety of weather, lighting, traffic and road conditions that an AV must be aware of. Motivated by the need to recognize environmental contexts, we create a context recognition dataset called DrivingContexts with more than 1.6 million context-query pairs relevant for an AV. Since traditional supervised computer vision approaches do not scale well to a variety of contexts, we propose a framework called ContextVLM that uses vision-language models to detect contexts using zero- and few-shot approaches. ContextVLM is capable of reliably detecting relevant driving contexts with an accuracy of more than 95% on our dataset, while running in real-time on a 4GB Nvidia GeForce GTX 1050 Ti GPU on an AV with a latency of 10.5 ms per query.
- Abstract(参考訳): 近年,交通システムの安全性向上を目的とした自律走行車(AV)技術の発展が目覚ましい。
AVはある程度現実世界に配備されているが、本格的な展開では、大雨、雪、照明の低さ、建設ゾーン、トンネル内のGPS信号の喪失といった課題を、AVがしっかりとナビゲートする必要がある。
これらの特定の課題に対処するには、AVは動作している環境の物理的特性を確実に認識する必要がある。
本稿では,AVの環境特性を正確に識別し,適切な処理を行うためのタスクとしてコンテキスト認識を定義する。
具体的には、AVが認識しなければならない様々な天候、照明、交通、道路条件を捉えた24の環境状況を定義します。
環境コンテキストを認識する必要性に動機付けられて、AVに関連する1.6万以上のコンテキストクエリペアを持つ、DrivingContextsと呼ばれるコンテキスト認識データセットを作成しました。
従来の教師付きコンピュータビジョンアプローチは様々なコンテキストにうまく対応できないため、ゼロショットと少数ショットのアプローチを用いて、視覚言語モデルを用いてコンテキストを検出するContextVLMというフレームワークを提案する。
ContextVLMは、4GBのNvidia GeForce GTX 1050 Ti GPU上で、クエリ毎に10.5ミリ秒のレイテンシでリアルタイムに実行しながら、データセット上で95%以上の精度で関連する駆動コンテキストを確実に検出することができる。
関連論文リスト
- Tapping in a Remote Vehicle's onboard LLM to Complement the Ego Vehicle's Field-of-View [1.701722696403793]
本稿では,車載言語モデル(LLM)をタップすることで,エゴ車両の視野(FOV)と他の車両のFOVを補完する概念を提案する。
GPT-4V や GPT-4o など,ごく最近の LLM では,交通状況が極めて詳細に把握されているため,交通参加者の特定にも利用することができる。
論文 参考訳(メタデータ) (2024-08-20T12:38:34Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Detection of Active Emergency Vehicles using Per-Frame CNNs and Output
Smoothing [4.917229375785646]
一般的なアクター状態(位置や速度など)を推定することは、自動運転車に搭載された知覚システムの重要かつよく探索されたタスクである。
特に、アクティブな緊急車両(EV)では、完全なコンテキストを提供するために光ベースの信号も取得する必要がある。
本稿では,フレームレベルで動作している市販のCNNモデルと,点滅するEVライトの時間的側面を考慮した下流スムーズなモデルを用いて,アクティブEVの検出のシーケンシャルな手法を提案する。
論文 参考訳(メタデータ) (2022-12-28T04:45:51Z) - Uncertainty-aware Perception Models for Off-road Autonomous Unmanned
Ground Vehicles [6.2574402913714575]
オフロード自律無人地上車両(UGV)は、遠隔地で重要な物資を供給するために軍用および商業用途のために開発されている。
現在のデータセットは、季節、場所、セマンティッククラス、および日時における多様性の欠如に対する、オフロード自律ナビゲーションのための知覚モデルのトレーニングに使用されています。
本研究では,複数のデータセットを組み合わせてセグメンテーションに基づく環境認識モデルを学習する方法について検討する。
我々は,不確実性を捉えるためにモデルをトレーニングすることで,モデルの性能を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2022-09-22T15:59:33Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Intersection focused Situation Coverage-based Verification and
Validation Framework for Autonomous Vehicles Implemented in CARLA [1.1602089225841632]
本稿では,AVの検証・検証(V&V)と安全性保証のための状況カバレッジベース(SitCov) AV-testingフレームワークを提案する。
SitCov AV-testing frameworkは、異なる環境および交差点構成下での道路交差点における車両と車両の相互作用に焦点を当てる。
私たちのコードはオンラインで公開されており、誰でも私たちのSitCov AV-testingフレームワークを使って、それを使って、さらにその上に構築することができます。
論文 参考訳(メタデータ) (2021-12-24T02:56:56Z) - Attention-based Neural Network for Driving Environment Complexity
Perception [123.93460670568554]
本稿では,周囲の運転環境の複雑さを予測するための,注目に基づく新しいニューラルネットワークモデルを提案する。
Yolo-v3オブジェクト検出アルゴリズム、ヒートマップ生成アルゴリズム、CNNベースの特徴抽出器、注目ベースの特徴抽出器で構成される。
提案するアテンションベースネットワークは,周囲環境の複雑さを分類する平均分類精度91.22%を達成している。
論文 参考訳(メタデータ) (2021-06-21T17:27:11Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - BoMuDANet: Unsupervised Adaptation for Visual Scene Understanding in
Unstructured Driving Environments [54.22535063244038]
非構造交通環境における視覚的シーン理解のための教師なし適応手法を提案する。
本手法は,車,トラック,二輪車,三輪車,歩行者からなる密集・異種交通を伴う非構造現実シナリオを対象としたものである。
論文 参考訳(メタデータ) (2020-09-22T08:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。