論文の概要: Mapillary Vistas Validation for Fine-Grained Traffic Signs: A Benchmark Revealing Vision-Language Model Limitations
- arxiv url: http://arxiv.org/abs/2508.02047v1
- Date: Mon, 04 Aug 2025 04:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.173045
- Title: Mapillary Vistas Validation for Fine-Grained Traffic Signs: A Benchmark Revealing Vision-Language Model Limitations
- Title(参考訳): Mapillary Vistas Validation for Fine-Grained Traffic Signs: ABenchmark Revealing Vision-Language Model limitation
- Authors: Sparsh Garg, Abhishek Aich,
- Abstract要約: Mapillary Vistas Validation for Traffic Signs (MVV) と呼ばれるMapillaryデータセットから得られた交通信号に対する新しい検証セットを提案する。
データセットにはピクセルレベルのインスタンスマスクが含まれており、専門家アノテータによって手動でアノテートされ、ラベルの忠実さが保証されている。
我々は、このデータセット上の自己教師型DINOv2モデルに対して、最先端のVLMをベンチマークし、DINOv2が全てのVLMベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 5.159407277301709
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Obtaining high-quality fine-grained annotations for traffic signs is critical for accurate and safe decision-making in autonomous driving. Widely used datasets, such as Mapillary, often provide only coarse-grained labels - without distinguishing semantically important types such as stop signs or speed limit signs. To this end, we present a new validation set for traffic signs derived from the Mapillary dataset called Mapillary Vistas Validation for Traffic Signs (MVV), where we decompose composite traffic signs into granular, semantically meaningful categories. The dataset includes pixel-level instance masks and has been manually annotated by expert annotators to ensure label fidelity. Further, we benchmark several state-of-the-art VLMs against the self-supervised DINOv2 model on this dataset and show that DINOv2 consistently outperforms all VLM baselines-not only on traffic sign recognition, but also on heavily represented categories like vehicles and humans. Our analysis reveals significant limitations in current vision-language models for fine-grained visual understanding and establishes DINOv2 as a strong baseline for dense semantic matching in autonomous driving scenarios. This dataset and evaluation framework pave the way for more reliable, interpretable, and scalable perception systems. Code and data are available at: https://github.com/nec-labs-ma/relabeling
- Abstract(参考訳): 交通標識の高品質な細かいアノテーションを得ることは、自動運転における正確かつ安全な意思決定に不可欠である。
Mapillaryのような広く使われているデータセットは、停止標識やスピード制限標識のような意味的に重要なタイプを区別することなく、粗い粒度のラベルのみを提供することが多い。
この目的のために,Mapillary Vistas Validation for Traffic Signs (MVV) と呼ばれるMapillaryデータセットから得られた交通標識の検証セットを提案する。
データセットにはピクセルレベルのインスタンスマスクが含まれており、専門家アノテータによって手動でアノテートされ、ラベルの忠実さが保証されている。
さらに、このデータセット上で、自己教師型DINOv2モデルに対して最先端のVLMをベンチマークし、DINOv2が交通標識認識だけでなく、車両や人間などの非常に表現の多いカテゴリにおいて、VLMのベースラインを一貫して上回っていることを示す。
我々の分析は、現在の視覚言語モデルにおいて、きめ細かい視覚的理解のための重要な制限を明らかにし、自律運転シナリオにおける密接なセマンティックマッチングの強力なベースラインとしてDINOv2を確立している。
このデータセットと評価フレームワークは、より信頼性があり、解釈可能で、スケーラブルな知覚システムを実現する。
コードとデータは、https://github.com/nec-labs-ma/relabeling.comで入手できる。
関連論文リスト
- SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - MUSES: The Multi-Sensor Semantic Perception Dataset for Driving under Uncertainty [46.369657697892634]
MUSES(MUlti-Sensor Semantic 知覚データセット)を導入する。
データセットはフレームカメラ、ライダー、レーダー、イベントカメラ、IMU/GNSSセンサーを統合する。
MUSESは、様々な視覚条件下でモデルを評価するのに、トレーニングと挑戦の両方に効果的であることを証明している。
論文 参考訳(メタデータ) (2024-01-23T13:43:17Z) - Fusing Pseudo Labels with Weak Supervision for Dynamic Traffic Scenarios [0.0]
我々は、異種データセットで訓練されたオブジェクト検出モデルから擬似ラベルをアマルガメートする弱い教師付きラベル統一パイプラインを導入する。
我々のパイプラインは、異なるデータセットからのラベルの集約、バイアスの修正、一般化の強化を通じて、統一されたラベル空間をエンゲージする。
我々は,統合ラベル空間を用いた単独物体検出モデルを再学習し,動的交通シナリオに精通した弾力性のあるモデルを構築した。
論文 参考訳(メタデータ) (2023-08-30T11:33:07Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - ConMAE: Contour Guided MAE for Unsupervised Vehicle Re-Identification [8.950873153831735]
本研究は、ConMAE(Unsupervised Vehicle Re-Identification)のためのContour Guided Masked Autoencoderを設計する。
Masked Autoencoder (MAE) は自己教師付き学習において優れた性能を発揮していることを考慮し、ConMAE (Contour Guided Masked Autoencoder for Unsupervised Vehicle Re-Identification) を設計した。
論文 参考訳(メタデータ) (2023-02-11T12:10:25Z) - TrafficCAM: A Versatile Dataset for Traffic Flow Segmentation [9.744937939618161]
既存のトラフィックフローデータセットには2つの大きな制限がある。
クラス数は限られており、通常は1種類の車両に限られる。
我々は、TrafficCAMと呼ばれる新しいベンチマークトラフィックフロー画像データセットを導入する。
論文 参考訳(メタデータ) (2022-11-17T16:14:38Z) - Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle
Re-Identification [53.6218051770131]
クロスビューの一貫した機能表現は、正確な車両ReIDの鍵です。
既存のアプローチは、広範な余分な視点アノテーションを使用して、クロスビュー学習を監督する。
Weakly-supervised Cross-View Learning (WCVL) モジュールを車載用として提案する。
論文 参考訳(メタデータ) (2021-03-09T11:51:09Z) - Towards Accurate Vehicle Behaviour Classification With Multi-Relational
Graph Convolutional Networks [22.022759283770377]
モノクロ画像やビデオから車両の挙動を理解するパイプラインを提案する。
このような符号化の時間シーケンスをリカレントネットワークに供給し、車両の挙動をラベル付けする。
提案するフレームワークは,多様なデータセットに対して,さまざまな車両動作を高い忠実度に分類することができる。
論文 参考訳(メタデータ) (2020-02-03T14:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。