論文の概要: RoLID-11K: A Dashcam Dataset for Small-Object Roadside Litter Detection
- arxiv url: http://arxiv.org/abs/2601.00398v1
- Date: Thu, 01 Jan 2026 17:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.424547
- Title: RoLID-11K: A Dashcam Dataset for Small-Object Roadside Litter Detection
- Title(参考訳): RoLID-11K:小型路面リッター検出のためのダッシュカムデータセット
- Authors: Tao Wu, Qing Xu, Xiangjian He, Oakleigh Weekes, James Brown, Wenting Duan,
- Abstract要約: リッター検出のための既存の視覚データセットは、ストリートレベルの静止画、空中シーン、水上環境に焦点を当てている。
我々は,ダッシュカムから路面ゴミ検出のための最初の大規模データセットであるRoLID-11Kを紹介する。
我々は、精度指向のトランスフォーマーアーキテクチャからリアルタイムYOLOモデルまで、現代の検出器の幅広いスペクトルをベンチマークする。
- 参考スコア(独自算出の注目度): 7.884197174787844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Roadside litter poses environmental, safety and economic challenges, yet current monitoring relies on labour-intensive surveys and public reporting, providing limited spatial coverage. Existing vision datasets for litter detection focus on street-level still images, aerial scenes or aquatic environments, and do not reflect the unique characteristics of dashcam footage, where litter appears extremely small, sparse and embedded in cluttered road-verge backgrounds. We introduce RoLID-11K, the first large-scale dataset for roadside litter detection from dashcams, comprising over 11k annotated images spanning diverse UK driving conditions and exhibiting pronounced long-tail and small-object distributions. We benchmark a broad spectrum of modern detectors, from accuracy-oriented transformer architectures to real-time YOLO models, and analyse their strengths and limitations on this challenging task. Our results show that while CO-DETR and related transformers achieve the best localisation accuracy, real-time models remain constrained by coarse feature hierarchies. RoLID-11K establishes a challenging benchmark for extreme small-object detection in dynamic driving scenes and aims to support the development of scalable, low-cost systems for roadside-litter monitoring. The dataset is available at https://github.com/xq141839/RoLID-11K.
- Abstract(参考訳): 道路沿いのゴミは環境、安全、経済的問題を引き起こすが、現在の監視は労働集約的な調査と公共の報告に依存しており、空間的範囲は限られている。
リッター検出のための既存の視覚データセットは、ストリートレベルの静止画、空中のシーン、または水上環境に焦点を合わせており、ダッシュカムの映像の特徴を反映していない。
ダッシュカムから路面リッター検出のための最初の大規模データセットであるRoLID-11Kを導入し,イギリスの様々な運転条件にまたがる11k以上の注釈付き画像と,顕著な長尾および小物体分布を示す。
我々は、精度指向のトランスフォーマーアーキテクチャからリアルタイムYOLOモデルに至るまで、現代の検出器の幅広いスペクトルをベンチマークし、この課題に対するその強みと限界を分析する。
以上の結果から,CO-DETRと関連するトランスフォーマーは最適なローカライゼーション精度を達成できるが,実時間モデルは粗い特徴階層によって制約されることがわかった。
RoLID-11Kは、動的駆動シーンにおける極端に小さな物体検出のための挑戦的なベンチマークを確立し、ロードサイドリッター監視のためのスケーラブルで低コストなシステムの開発を支援することを目的としている。
データセットはhttps://github.com/xq141839/RoLID-11Kで公開されている。
関連論文リスト
- AVOID: The Adverse Visual Conditions Dataset with Obstacles for Driving Scene Understanding [48.97660297411286]
シミュレーション環境におけるリアルタイム障害物検出のための新しいデータセットであるAVOIDを紹介する。
AVOIDは、様々な天候と時間条件下で捕獲された各経路に沿って、予期せぬ道路障害物からなる。
各画像は、対応するセマンティックマップと深度マップ、生およびセマンティックLiDARデータ、およびウェイポイントと結合される。
論文 参考訳(メタデータ) (2025-12-29T05:34:26Z) - A Multi-Drone Multi-View Dataset and Deep Learning Framework for Pedestrian Detection and Tracking [4.94365026098608]
本稿では,連続的な位置変化を伴う8台のドローンの同期映像を特徴とするMATRIXについて紹介する。
我々のフレームワークは、リアルタイムカメラキャリブレーションによる動的ドローンによる監視の難しさに対処する。
提案手法は,検出精度と追跡精度を$sim$90%,トラジェクトリの$sim$80%で頑健な性能を維持する。
論文 参考訳(メタデータ) (2025-11-06T11:22:19Z) - Scaling Traffic Insights with AI and Language Model-Powered Camera Systems for Data-Driven Transportation Decision Making [3.0273878903284266]
本研究では,大規模かつ高分解能な縦解析のためのエンドツーエンドAIベースのフレームワークを提案する。
局所都市シーンで訓練された微調整されたYOLOv11モデルにより,マルチモーダルトラフィック密度と分類基準をリアルタイムで抽出する。
2025年のニューヨーク市の混雑価格の早期展開で、約1000台の交通カメラから900万枚以上の画像を使ってシステムを検証した。
論文 参考訳(メタデータ) (2025-10-11T03:18:42Z) - ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - SOTA: Spike-Navigated Optimal TrAnsport Saliency Region Detection in Composite-bias Videos [50.51658520045165]
Spike-d TrAnsport Saliency Region Detection (SOTA)は、スパイクカメラの強度を活用しつつ、空間次元と時間次元の両方のバイアスを緩和するフレームワークである。
本手法では,微妙なフレーム・ツー・フレームの変動を捉えるために,スパイクに基づくマイクロデビア(SM)を導入する。
SOTAは様々な条件にまたがる不整合を減らして予測を洗練させる。
論文 参考訳(メタデータ) (2025-05-01T08:30:40Z) - Salient Object Detection in Traffic Scene through the TSOD10K Dataset [22.615252113004402]
Traffic Salient Object Detection (TSOD) は、セマンティック(衝突リスクなど)と視覚的サリエンスを組み合わせることで、安全を運転する上で重要なオブジェクトを分割することを目的としている。
本研究は,インテリジェントトランスポートシステムにおける安全対応型サリエンシ分析の基盤を初めて確立するものである。
論文 参考訳(メタデータ) (2025-03-21T07:21:24Z) - TD-RD: A Top-Down Benchmark with Real-Time Framework for Road Damage Detection [17.370420825916867]
インフラ整備や道路安全などの応用において重要な意味があるにもかかわらず、道路損傷検出はいまだに比較的検討中である。
本稿では,道路損傷検出に適した既存のデータセットを補完する,新しいトップダウンベンチマークを導入することで,このギャップに対処する。
提案したトップダウン道路被害検出データセット (TDRD) には, 道路損傷亀裂, 穴, および, 注釈付きトップダウン視点のパッチの3つの主要なカテゴリが含まれている。
論文 参考訳(メタデータ) (2025-01-24T08:00:25Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。