論文の概要: RampNet: A Two-Stage Pipeline for Bootstrapping Curb Ramp Detection in Streetscape Images from Open Government Metadata
- arxiv url: http://arxiv.org/abs/2508.09415v1
- Date: Wed, 13 Aug 2025 01:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.720615
- Title: RampNet: A Two-Stage Pipeline for Bootstrapping Curb Ramp Detection in Streetscape Images from Open Government Metadata
- Title(参考訳): RampNet:オープン・ガバメント・メタデータからストリートスケープ画像のカーブランプ検出をブートストラップする2段階パイプライン
- Authors: John S. O'Meara, Jared Hwang, Zeyu Wang, Michael Saugstad, Jon E. Froehlich,
- Abstract要約: カーブランプは都会のアクセシビリティーに欠かせないが、画像をしっかりと検出することは未解決の問題である。
ランプ検出データセットの縮小とモデル性能の向上を目的として,RampNetと呼ばれる2段階パイプラインを導入,評価した。
- 参考スコア(独自算出の注目度): 7.5181914205229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curb ramps are critical for urban accessibility, but robustly detecting them in images remains an open problem due to the lack of large-scale, high-quality datasets. While prior work has attempted to improve data availability with crowdsourced or manually labeled data, these efforts often fall short in either quality or scale. In this paper, we introduce and evaluate a two-stage pipeline called RampNet to scale curb ramp detection datasets and improve model performance. In Stage 1, we generate a dataset of more than 210,000 annotated Google Street View (GSV) panoramas by auto-translating government-provided curb ramp location data to pixel coordinates in panoramic images. In Stage 2, we train a curb ramp detection model (modified ConvNeXt V2) from the generated dataset, achieving state-of-the-art performance. To evaluate both stages of our pipeline, we compare to manually labeled panoramas. Our generated dataset achieves 94.0% precision and 92.5% recall, and our detection model reaches 0.9236 AP -- far exceeding prior work. Our work contributes the first large-scale, high-quality curb ramp detection dataset, benchmark, and model.
- Abstract(参考訳): カーブランプは都市のアクセシビリティにとって重要であるが、大規模で高品質なデータセットが欠如しているため、画像中のそれらを堅牢に検出することは未解決の問題である。
以前の作業では、クラウドソースまたは手動でラベル付けされたデータによるデータの可用性向上が試みられていたが、品質とスケールのいずれにおいても、これらの取り組みは不足することが多い。
本稿では,ランプ検出データセットを縮小し,モデル性能を向上させるために,RampNetと呼ばれる2段階パイプラインを導入,評価する。
ステージ1では,政府が提供するスタンプランプ位置データをパノラマ画像のピクセル座標に自動翻訳することで,210,000以上の注釈付きGoogleストリートビュー(GSV)パノラマのデータセットを生成する。
ステージ2では、生成されたデータセットからストレッチランプ検出モデル(修正されたConvNeXt V2)をトレーニングし、最先端のパフォーマンスを実現する。
パイプラインの両段階を評価するため,手動でラベル付けしたパノラマと比較した。
生成されたデータセットは94.0%の精度と92.5%のリコールを実現し、検出モデルは0.9236 APに達した。
我々の研究は、最初の大規模で高品質なランプ検出データセット、ベンチマーク、モデルに貢献しています。
関連論文リスト
- Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis [0.06282171844772422]
本プロジェクトは,事前学習対象検出モデルの予測性能を向上させるための3段階の手法を提案し,実装した。
提案手法は、任意の入力解像度設定の下で、YOLO v5m6 と Faster RCNN-FPN の平均精度を改善する。
テストビデオのオーバーテイクを検出すると、Fスコア0.88を達成する。
論文 参考訳(メタデータ) (2024-07-21T15:37:55Z) - Constellation Dataset: Benchmarking High-Altitude Object Detection for an Urban Intersection [7.419274609612015]
本研究では,高標高カメラで観測された都市景観の物体検出研究に適した13K画像のデータセットであるConstellationを紹介する。
このデータセットは、歩行者の限られたピクセルフットプリントによって実証された小さな物体検出の問題を探索するキュレートされたデータの必要性に対処する。
提案手法は, 車両と比較して小型歩行者の検出性能が低いことを観察し, データセット上での同時検出アーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2024-04-25T18:00:24Z) - Semi-supervised Learning from Street-View Images and OpenStreetMap for
Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。
提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。
予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文 参考訳(メタデータ) (2023-07-05T18:16:30Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through
Bird's Eye View Projections [18.7557037030769]
位置認識は、完全な自律性を達成するための、自動運転車にとって重要な技術である。
クロスモーダルデータを同じモダリティに変換することで,I2P-Rec法を提案する。
トレーニングデータの小さなセットだけで、I2P-Recはポイントクラウドマップ上のモノクロ画像とステレオ画像のローカライズ時に、80%と90%でトップ1%のリコール率を達成する。
論文 参考訳(メタデータ) (2023-03-02T07:56:04Z) - CLiNet: Joint Detection of Road Network Centerlines in 2D and 3D [5.543544712471748]
本研究は,2次元と3次元で共同で特徴をローカライズすることで,画像データに基づく中心線の共同検出のための新しいアプローチを提案する。
AV Breadcrumbsと呼ばれる大規模都市走行データセットをベクトル地図表現と射影幾何学を利用して自動的にラベル付けし,900,000以上の画像に注釈を付ける。
論文 参考訳(メタデータ) (2023-02-04T23:30:04Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - City-scale Scene Change Detection using Point Clouds [71.73273007900717]
2つの異なる時間にカメラを設置して撮影した画像を用いて都市の構造変化を検出する手法を提案する。
変化検出のための2点雲の直接比較は、不正確な位置情報のため理想的ではない。
この問題を回避するために,ポイントクラウド上での深層学習に基づく非厳密な登録を提案する。
提案手法は,視点や照明の違いがあっても,シーン変化を効果的に検出できることを示す。
論文 参考訳(メタデータ) (2021-03-26T08:04:13Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。