論文の概要: The Urban Vision Hackathon Dataset and Models: Towards Image Annotations and Accurate Vision Models for Indian Traffic
- arxiv url: http://arxiv.org/abs/2511.02563v1
- Date: Tue, 04 Nov 2025 13:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.001174
- Title: The Urban Vision Hackathon Dataset and Models: Towards Image Annotations and Accurate Vision Models for Indian Traffic
- Title(参考訳): 都市ビジョンハッカソンデータセットとモデル:インド交通における画像アノテーションと正確なビジョンモデルを目指して
- Authors: Akash Sharma, Chinmay Mhatre, Sankalp Gawali, Ruthvik Bokkasam, Brij Kishore, Vishwajeet Pattanaik, Tarun Rambha, Abdul R. Pinjari, Vijay Kovvali, Anirban Chakraborty, Punit Rathore, Raghu Krishnapuram, Yogesh Simmhan,
- Abstract要約: UVH-26は、AIM@IIScによるインドからの注釈付きトラフィックカメラ画像の大規模なデータセットの最初のパブリックリリースである。
データセットは、バンガロールの2800台の安全都市CCTVカメラから4週間にわたって採取された高解像度(1080p)の画像26,646枚からなる。
合計で、インド固有の14の車種に180万のバウンディングボックスがラベル付けされた。
- 参考スコア(独自算出の注目度): 6.346576275272361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes the UVH-26 dataset, the first public release by AIM@IISc of a large-scale dataset of annotated traffic-camera images from India. The dataset comprises 26,646 high-resolution (1080p) images sampled from 2800 Bengaluru's Safe-City CCTV cameras over a 4-week period, and subsequently annotated through a crowdsourced hackathon involving 565 college students from across India. In total, 1.8 million bounding boxes were labeled across 14 vehicle classes specific to India: Cycle, 2-Wheeler (Motorcycle), 3-Wheeler (Auto-rickshaw), LCV (Light Commercial Vehicles), Van, Tempo-traveller, Hatchback, Sedan, SUV, MUV, Mini-bus, Bus, Truck and Other. Of these, 283k-316k consensus ground truth bounding boxes and labels were derived for distinct objects in the 26k images using Majority Voting and STAPLE algorithms. Further, we train multiple contemporary detectors, including YOLO11-S/X, RT-DETR-S/X, and DAMO-YOLO-T/L using these datasets, and report accuracy based on mAP50, mAP75 and mAP50:95. Models trained on UVH-26 achieve 8.4-31.5% improvements in mAP50:95 over equivalent baseline models trained on COCO dataset, with RT-DETR-X showing the best performance at 0.67 (mAP50:95) as compared to 0.40 for COCO-trained weights for common classes (Car, Bus, and Truck). This demonstrates the benefits of domain-specific training data for Indian traffic scenarios. The release package provides the 26k images with consensus annotations based on Majority Voting (UVH-26-MV) and STAPLE (UVH-26-ST) and the 6 fine-tuned YOLO and DETR models on each of these datasets. By capturing the heterogeneity of Indian urban mobility directly from operational traffic-camera streams, UVH-26 addresses a critical gap in existing global benchmarks, and offers a foundation for advancing detection, classification, and deployment of intelligent transportation systems in emerging nations with complex traffic conditions.
- Abstract(参考訳): 本報告では、インドからの注釈付きトラフィックカメラ画像の大規模なデータセットである、AIM@IIScによる最初の公開リリースであるUVH-26データセットについて述べる。
このデータセットは、ベンガルルのCCTVカメラ2800台から4週間にわたって採取された高解像度画像26,646枚(1080p)からなり、その後、インド全土から565人の大学生が参加するクラウドソースのハッカソンを通じて注釈が付された。
合計180万台のバウンディングボックスは、インド固有の14種類の車種(Cycle, 2-Wheeler (Motorcycle), 3-Wheeler (Auto-rickshaw), LCV (Light Commercial Vehicles), Van, Tempo-Traveller, Hatchback, Sedan, SUV, MUV, Mini-bus, Bus, Truckなど)にラベルが付けられている。
これらのうち283k-316kのコンセンサス基底真理境界ボックスとラベルは、Majority VotingとSTAPLEアルゴリズムを用いて26k画像の異なる対象に対して導出された。
さらに、これらのデータセットを用いて、YOLO11-S/X、RT-DETR-S/X、DAMO-YOLO-T/Lを含む複数の現代の検出器を訓練し、mAP50、mAP75、mAP50:95に基づいて精度を報告する。
UVH-26でトレーニングされたモデルは、COCOデータセットでトレーニングされた同等のベースラインモデルよりも8.4-31.5%改善された。
これは、インドのトラフィックシナリオに対するドメイン固有のトレーニングデータの利点を示しています。
リリースパッケージは、多数決投票(UVH-26-MV)とSTAPLE(UVH-26-ST)に基づくコンセンサスアノテーションを備えた26kイメージと、これらのデータセットの6つの微調整されたYOLOとDETRモデルを提供する。
UVH-26は、運用中の交通カメラストリームから直接インドの都市モビリティの異質性を捉えることで、既存のグローバルベンチマークにおける重要なギャップに対処し、複雑な交通状況の新興国におけるインテリジェントな交通システムの検出、分類、展開を促進する基盤を提供する。
関連論文リスト
- PAVE: An End-to-End Dataset for Production Autonomous Vehicle Evaluation [11.024538259188347]
このデータセットには、市場で生産される自動運転車モデルから100時間以上の自然科学的なデータが含まれている。
各キーフレームには、過去6秒と将来の5秒にまたがる20Hzの車両軌跡と、周辺車両、歩行者、信号機、交通標識の詳細な2Dアノテーションが提供されている。
AVの安全性を評価するために、自動運転車のフレーム上で平均変位誤差(ADE)1.4mの車両軌道を予測できるエンドツーエンドの運動計画モデルを用いる。
論文 参考訳(メタデータ) (2025-11-18T06:41:34Z) - Evaluating YOLO Architectures: Implications for Real-Time Vehicle Detection in Urban Environments of Bangladesh [0.0]
非バングラデシュのデータセットで訓練された車両検知システムは、バングラデシュのユニークな道路環境において、地元の車両のタイプを正確に識別するのに苦労している。
本研究は、29の異なる車両クラスを特徴とするカスタムデータセット上で、6つのYOLOモデル変異を評価した。
論文 参考訳(メタデータ) (2025-09-06T09:11:44Z) - DriveIndia: An Object Detection Dataset for Diverse Indian Traffic Scenes [0.3186130813218338]
DriveIndiaは、インドの交通環境の複雑さと予測不可能性を捉えるために構築された、大規模なオブジェクト検出データセットである。
データセットには、24のトラフィック関連オブジェクトカテゴリにわたるYOLOフォーマットで注釈付けされた66,986の高解像度イメージが含まれている。
論文 参考訳(メタデータ) (2025-07-26T10:52:03Z) - AGC-Drive: A Large-Scale Dataset for Real-World Aerial-Ground Collaboration in Driving Scenarios [68.84774511206797]
AGC-DriveはAerial-Ground Cooperativeの3D知覚のための最初の大規模実世界のデータセットである。
AGC-Driveには350のシーンがあり、それぞれ約100のフレームと13のオブジェクトカテゴリをカバーする完全な注釈付き3Dバウンディングボックスがある。
車両間協調認識と車両間協調認識の2つの3次元タスクのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-06-19T14:48:43Z) - myEye2Wheeler: A Two-Wheeler Indian Driver Real-World Eye-Tracking Dataset [0.0]
本稿では,2輪運転者の実世界の視線行動のユニークなリソースであるmyEye2Wheelerデータセットを提案する。
われわれのデータセットは、インド人の二輪運転者の意思決定に関するユニークな視覚的注意パターンと洞察に重要なレンズを提供する。
論文 参考訳(メタデータ) (2025-02-18T10:39:00Z) - V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception [61.58737390490639]
V2X-Radarは、4Dレーダを特徴とする世界初の大規模実世界のマルチモーダルデータセットである。
データセットは20KのLiDARフレーム、40Kのカメライメージ、350Kの注釈付きボックスを含む20Kの4Dレーダデータで構成されている。
様々な研究領域をサポートするために, 協調認識のためのV2X-Radar-C, 路面認識のためのV2X-Radar-I, 単車知覚のためのV2X-Radar-Vを確立した。
論文 参考訳(メタデータ) (2024-11-17T04:59:00Z) - Bangladeshi Native Vehicle Detection in Wild [1.444899524297657]
本稿ではバングラデシュで最もよく見られる車両のネイティブな車両検出データセットを提案する。
17の異なる車両クラスが考慮され、17326の画像の81542の完全な注釈が付けられている。
実験の結果,BNVDデータセットが車両分布の信頼性を示すことがわかった。
論文 参考訳(メタデータ) (2024-05-20T16:23:40Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。