論文の概要: The Urban Vision Hackathon Dataset and Models: Towards Image Annotations and Accurate Vision Models for Indian Traffic
- arxiv url: http://arxiv.org/abs/2511.02563v1
- Date: Tue, 04 Nov 2025 13:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.001174
- Title: The Urban Vision Hackathon Dataset and Models: Towards Image Annotations and Accurate Vision Models for Indian Traffic
- Title(参考訳): 都市ビジョンハッカソンデータセットとモデル:インド交通における画像アノテーションと正確なビジョンモデルを目指して
- Authors: Akash Sharma, Chinmay Mhatre, Sankalp Gawali, Ruthvik Bokkasam, Brij Kishore, Vishwajeet Pattanaik, Tarun Rambha, Abdul R. Pinjari, Vijay Kovvali, Anirban Chakraborty, Punit Rathore, Raghu Krishnapuram, Yogesh Simmhan,
- Abstract要約: UVH-26は、AIM@IIScによるインドからの注釈付きトラフィックカメラ画像の大規模なデータセットの最初のパブリックリリースである。
データセットは、バンガロールの2800台の安全都市CCTVカメラから4週間にわたって採取された高解像度(1080p)の画像26,646枚からなる。
合計で、インド固有の14の車種に180万のバウンディングボックスがラベル付けされた。
- 参考スコア(独自算出の注目度): 6.346576275272361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes the UVH-26 dataset, the first public release by AIM@IISc of a large-scale dataset of annotated traffic-camera images from India. The dataset comprises 26,646 high-resolution (1080p) images sampled from 2800 Bengaluru's Safe-City CCTV cameras over a 4-week period, and subsequently annotated through a crowdsourced hackathon involving 565 college students from across India. In total, 1.8 million bounding boxes were labeled across 14 vehicle classes specific to India: Cycle, 2-Wheeler (Motorcycle), 3-Wheeler (Auto-rickshaw), LCV (Light Commercial Vehicles), Van, Tempo-traveller, Hatchback, Sedan, SUV, MUV, Mini-bus, Bus, Truck and Other. Of these, 283k-316k consensus ground truth bounding boxes and labels were derived for distinct objects in the 26k images using Majority Voting and STAPLE algorithms. Further, we train multiple contemporary detectors, including YOLO11-S/X, RT-DETR-S/X, and DAMO-YOLO-T/L using these datasets, and report accuracy based on mAP50, mAP75 and mAP50:95. Models trained on UVH-26 achieve 8.4-31.5% improvements in mAP50:95 over equivalent baseline models trained on COCO dataset, with RT-DETR-X showing the best performance at 0.67 (mAP50:95) as compared to 0.40 for COCO-trained weights for common classes (Car, Bus, and Truck). This demonstrates the benefits of domain-specific training data for Indian traffic scenarios. The release package provides the 26k images with consensus annotations based on Majority Voting (UVH-26-MV) and STAPLE (UVH-26-ST) and the 6 fine-tuned YOLO and DETR models on each of these datasets. By capturing the heterogeneity of Indian urban mobility directly from operational traffic-camera streams, UVH-26 addresses a critical gap in existing global benchmarks, and offers a foundation for advancing detection, classification, and deployment of intelligent transportation systems in emerging nations with complex traffic conditions.
- Abstract(参考訳): 本報告では、インドからの注釈付きトラフィックカメラ画像の大規模なデータセットである、AIM@IIScによる最初の公開リリースであるUVH-26データセットについて述べる。
このデータセットは、ベンガルルのCCTVカメラ2800台から4週間にわたって採取された高解像度画像26,646枚(1080p)からなり、その後、インド全土から565人の大学生が参加するクラウドソースのハッカソンを通じて注釈が付された。
合計180万台のバウンディングボックスは、インド固有の14種類の車種(Cycle, 2-Wheeler (Motorcycle), 3-Wheeler (Auto-rickshaw), LCV (Light Commercial Vehicles), Van, Tempo-Traveller, Hatchback, Sedan, SUV, MUV, Mini-bus, Bus, Truckなど)にラベルが付けられている。
これらのうち283k-316kのコンセンサス基底真理境界ボックスとラベルは、Majority VotingとSTAPLEアルゴリズムを用いて26k画像の異なる対象に対して導出された。
さらに、これらのデータセットを用いて、YOLO11-S/X、RT-DETR-S/X、DAMO-YOLO-T/Lを含む複数の現代の検出器を訓練し、mAP50、mAP75、mAP50:95に基づいて精度を報告する。
UVH-26でトレーニングされたモデルは、COCOデータセットでトレーニングされた同等のベースラインモデルよりも8.4-31.5%改善された。
これは、インドのトラフィックシナリオに対するドメイン固有のトレーニングデータの利点を示しています。
リリースパッケージは、多数決投票(UVH-26-MV)とSTAPLE(UVH-26-ST)に基づくコンセンサスアノテーションを備えた26kイメージと、これらのデータセットの6つの微調整されたYOLOとDETRモデルを提供する。
UVH-26は、運用中の交通カメラストリームから直接インドの都市モビリティの異質性を捉えることで、既存のグローバルベンチマークにおける重要なギャップに対処し、複雑な交通状況の新興国におけるインテリジェントな交通システムの検出、分類、展開を促進する基盤を提供する。
関連論文リスト
- Evaluating YOLO Architectures: Implications for Real-Time Vehicle Detection in Urban Environments of Bangladesh [0.0]
非バングラデシュのデータセットで訓練された車両検知システムは、バングラデシュのユニークな道路環境において、地元の車両のタイプを正確に識別するのに苦労している。
本研究は、29の異なる車両クラスを特徴とするカスタムデータセット上で、6つのYOLOモデル変異を評価した。
論文 参考訳(メタデータ) (2025-09-06T09:11:44Z) - DriveIndia: An Object Detection Dataset for Diverse Indian Traffic Scenes [0.3186130813218338]
DriveIndiaは、インドの交通環境の複雑さと予測不可能性を捉えるために構築された、大規模なオブジェクト検出データセットである。
データセットには、24のトラフィック関連オブジェクトカテゴリにわたるYOLOフォーマットで注釈付けされた66,986の高解像度イメージが含まれている。
論文 参考訳(メタデータ) (2025-07-26T10:52:03Z) - AGC-Drive: A Large-Scale Dataset for Real-World Aerial-Ground Collaboration in Driving Scenarios [68.84774511206797]
AGC-DriveはAerial-Ground Cooperativeの3D知覚のための最初の大規模実世界のデータセットである。
AGC-Driveには350のシーンがあり、それぞれ約100のフレームと13のオブジェクトカテゴリをカバーする完全な注釈付き3Dバウンディングボックスがある。
車両間協調認識と車両間協調認識の2つの3次元タスクのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-06-19T14:48:43Z) - V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception [61.58737390490639]
V2X-Radarは、4Dレーダを特徴とする世界初の大規模実世界のマルチモーダルデータセットである。
データセットは20KのLiDARフレーム、40Kのカメライメージ、350Kの注釈付きボックスを含む20Kの4Dレーダデータで構成されている。
様々な研究領域をサポートするために, 協調認識のためのV2X-Radar-C, 路面認識のためのV2X-Radar-I, 単車知覚のためのV2X-Radar-Vを確立した。
論文 参考訳(メタデータ) (2024-11-17T04:59:00Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。