論文の概要: CARScenes: Semantic VLM Dataset for Safe Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.10701v2
- Date: Tue, 18 Nov 2025 15:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.594354
- Title: CARScenes: Semantic VLM Dataset for Safe Autonomous Driving
- Title(参考訳): CARScenes: 安全な自動運転のためのセマンティックVLMデータセット
- Authors: Yuankai He, Weisong Shi,
- Abstract要約: CAR-Scenesは、ビジョン言語モデルのトレーニングと評価を可能にする、自動運転のためのフレームレベルのデータセットである。
我々はArgoverse 1, Cityscapes, KITTI, nuScenesから5,192枚の画像に注釈を付けている。
- 参考スコア(独自算出の注目度): 3.9876810376226057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: CAR-Scenes is a frame-level dataset for autonomous driving that enables training and evaluation of vision-language models (VLMs) for interpretable, scene-level understanding. We annotate 5,192 images drawn from Argoverse 1, Cityscapes, KITTI, and nuScenes using a 28-key category/sub-category knowledge base covering environment, road geometry, background-vehicle behavior, ego-vehicle behavior, vulnerable road users, sensor states, and a discrete severity scale (1-10), totaling 350+ leaf attributes. Labels are produced by a GPT-4o-assisted vision-language pipeline with human-in-the-loop verification; we release the exact prompts, post-processing rules, and per-field baseline model performance. CAR-Scenes also provides attribute co-occurrence graphs and JSONL records that support semantic retrieval, dataset triage, and risk-aware scenario mining across sources. To calibrate task difficulty, we include reproducible, non-benchmark baselines, notably a LoRA-tuned Qwen2-VL-2B with deterministic decoding, evaluated via scalar accuracy, micro-averaged F1 for list attributes, and severity MAE/RMSE on a fixed validation split. We publicly release the annotation and analysis scripts, including graph construction and evaluation scripts, to enable explainable, data-centric workflows for future intelligent vehicles. Dataset: https://github.com/Croquembouche/CAR-Scenes
- Abstract(参考訳): CAR-Scenesは、自律運転のためのフレームレベルのデータセットで、視覚言語モデル(VLM)のトレーニングと評価を可能にし、解釈可能なシーンレベルの理解を可能にする。
筆者らはArgoverse 1, Cityscapes, KITTI, nuScenesから抽出した5,192枚の画像に, 環境, 道路形状, 背景車両挙動, エゴ車両挙動, 脆弱道路利用者, センサ状態, それぞれ350以上の葉の属性を含む28種類のカテゴリ/サブカテゴリの知識ベースを用いて注釈を行った。
ラベルは GPT-4o 支援型視覚言語パイプラインで生成され,正確なプロンプト,後処理ルール,フィールド毎のベースラインモデル性能が得られた。
CAR-Scenesは、セマンティック検索、データセットトリアージ、ソース間のリスク認識シナリオマイニングをサポートする属性共起グラフとJSONLレコードも提供する。
タスクの難易度を算定するために、再現性のない非ベンチマークベースライン、特に、決定論的復号化を施したLoRA-tuned Qwen2-VL-2B、スカラー精度による評価、リスト属性のマイクロ平均F1、固定バリデーションスプリットにおける重大MAE/RMSEを含む。
我々は、将来のインテリジェントな車両のための説明可能なデータ中心のワークフローを実現するために、グラフ構築や評価スクリプトを含むアノテーションと分析スクリプトを公開している。
データセット:https://github.com/Croquembouche/CAR-Scenes
関連論文リスト
- Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark [12.231630639022335]
SAMベースのエンコーダデコーダ,車両部品知識グラフ,コンテキストサンプル検索符号化モジュールの3つのコアコンポーネントからなる新しいフレームワークであるSAVを提案する。
知識グラフは、構造オントロジーを通じて車両部品間の空間的および幾何学的関係を明示的にモデル化し、事前構造的知識を効果的に符号化する。
我々は,11,665の高品質なピクセルレベルのアノテーションを含む自動車部品セグメンテーションのための大規模ベンチマークデータセット,VabySeg10Kを紹介した。
論文 参考訳(メタデータ) (2025-08-06T09:46:49Z) - Context-based Motion Retrieval using Open Vocabulary Methods for Autonomous Driving [0.5249805590164902]
本研究では,人間中心の多様なシナリオにおける自律走行システムの目標評価を支援する,コンテキスト認識型動き検索フレームワークを提案する。
提案手法は,WayMoCoデータセットで評価した場合,動作コンテキスト検索の精度を最大27.5%向上させる。
論文 参考訳(メタデータ) (2025-08-01T12:41:52Z) - EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving [8.97091577113286]
Emirates Multi-Taskデータセットは、統一されたフレームワーク内でマルチタスクのベンチマークをサポートするように設計されている。
ダッシュカメラの視界から3万枚以上のフレームと570,000点の注釈付きバウンディングボックスで構成され、約150kmの走行経路をカバーしている。
論文 参考訳(メタデータ) (2025-02-26T16:06:35Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Deep Representation Learning and Clustering of Traffic Scenarios [0.0]
トラフィックシーンの遅延表現を学習する2つのデータ駆動自動符号化モデルを導入する。
本稿では,遅延シナリオの埋め込みがトラフィックシナリオのクラスタリングや類似性検索にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-07-15T15:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。