論文の概要: ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones
- arxiv url: http://arxiv.org/abs/2406.07661v2
- Date: Tue, 22 Jul 2025 23:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.647763
- Title: ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones
- Title(参考訳): ROADWorkデータセット:ワークゾーンを認識し、観察し、分析し、運転する学習
- Authors: Anurag Ghosh, Shen Zheng, Robert Tamburo, Khiem Vuong, Juan Alvarez-Padilla, Hailiang Zhu, Michael Cardei, Nicholas Dunn, Christoph Mertz, Srinivasa G. Narasimhan,
- Abstract要約: 作業ゾーンを認識し,観察し,分析し,運転するROADWorkデータセットを提案する。
私たちのデータセットの微調整モデルは、ワークゾーンにおける知覚とナビゲーションを大幅に改善します。
作業ゾーンのビデオから,ナビゲーションの目標を予測し,予測可能な経路を計算する。
- 参考スコア(独自算出の注目度): 17.865753151104496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving and autonomously navigating through work zones is a challenging and underexplored problem. Open datasets for this long-tailed scenario are scarce. We propose the ROADWork dataset to learn to recognize, observe, analyze, and drive through work zones. State-of-the-art foundation models fail when applied to work zones. Fine-tuning models on our dataset significantly improves perception and navigation in work zones. With ROADWork dataset, we discover new work zone images with higher precision (+32.5%) at a much higher rate (12.8$\times$) around the world. Open-vocabulary methods fail too, whereas fine-tuned detectors improve performance (+32.2 AP). Vision-Language Models (VLMs) struggle to describe work zones, but fine-tuning substantially improves performance (+36.7 SPICE). Beyond fine-tuning, we show the value of simple techniques. Video label propagation provides additional gains (+2.6 AP) for instance segmentation. While reading work zone signs, composing a detector and text spotter via crop-scaling improves performance +14.2% 1-NED). Composing work zone detections to provide context further reduces hallucinations (+3.9 SPICE) in VLMs. We predict navigational goals and compute drivable paths from work zone videos. Incorporating road work semantics ensures 53.6% goals have angular error (AE) < 0.5 (+9.9 %) and 75.3% pathways have AE < 0.5 (+8.1 %).
- Abstract(参考訳): ワークゾーンを自律的に認識し、ナビゲートすることは、困難で未解決の問題である。
この長い尾のシナリオのオープンデータセットは少ない。
作業ゾーンを認識し,観察し,分析し,運転するROADWorkデータセットを提案する。
最先端のファンデーションモデルは、ワークゾーンに適用されると失敗します。
私たちのデータセットの微調整モデルは、ワークゾーンにおける知覚とナビゲーションを大幅に改善します。
ROADWorkデータセットにより、世界中ではるかに高いレート(12.8$\times$)で、より精度の高い(+32.5%)新しい作業ゾーンの画像が発見された。
開語彙法も失敗するが、細調整された検出器は性能を向上する(+32.2 AP)。
VLM(Vision-Language Models)はワークゾーンを記述するのに苦労するが、微調整により性能が大幅に向上する(+36.7 SPICE)。
微調整以外にも、簡単なテクニックの価値を示します。
ビデオラベルの伝搬は、インスタンスセグメンテーションのための追加のゲイン(+2.6 AP)を提供する。
作業ゾーンの標識を読みながら、作物スケーリングによる検出器とテキストスポッターを構成することで、パフォーマンスが14.2%向上する。
コンテキストを提供するためのワークゾーン検出の構成は、VLMの幻覚(+3.9 SPICE)をさらに減少させる。
作業ゾーンのビデオから,ナビゲーションの目標を予測し,予測可能な経路を計算する。
道路作業のセマンティクスを組み込むことで53.6%の目標が角誤差 (AE) < 0.5 (+9.9 %) であり、75.3%の経路がAE < 0.5 (+8.1 %) である。
関連論文リスト
- Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - FrontierNet: Learning Visual Cues to Explore [54.8265603996238]
この研究は、3Dマップからゴールポーズを抽出する制限に対処するため、効率的な自律探索に2Dビジュアルキューを活用することを目的としている。
本研究では,FrontierNetをコアコンポーネントとする画像のみのフロンティア探索システムを提案する。
提案手法は既存の3次元探査システムに代わるもので,早期探査効率が16%向上した。
論文 参考訳(メタデータ) (2025-01-08T16:25:32Z) - DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments [60.69159598130235]
Vulnerable Road Users (VRU) の高表現による認識手法の評価を目的とした新しいデータセット DAVE を提案する。
DAVEは16種類のアクターカテゴリー(動物、人間、車など)と16種類のアクションタイプ(カットイン、ジグザグ運動、Uターンなど、複雑で稀なケース)を手動でアノテートしたデータセットである。
実験の結果,既存の手法はDAVEで評価すると性能の劣化に悩まされ,将来的なビデオ認識研究のメリットを浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2024-12-28T06:13:44Z) - Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery [16.522544814241495]
本研究は、自動運転車(AV)のHDマップの必要性に対処するものである。
地球観測データは地図作成に有用な資源を提供するが、道路線抽出のための特別なモデルはまだリモートセンシングでは未開発である。
本研究では,高精細リモートセンシング画像から道路路面マーキング抽出のための基礎的深層学習に基づくセマンティックセマンティックセマンティクスモデルを比較した。
論文 参考訳(メタデータ) (2024-10-08T06:24:15Z) - Potential Field as Scene Affordance for Behavior Change-Based Visual Risk Object Identification [4.896236083290351]
行動変化に基づく視覚的リスクオブジェクト識別(Visual-ROI)について検討する。
既存の手法はしばしば空間的精度と時間的一貫性に重大な制限を呈する。
本稿では,これらの課題を克服するために,バードアイビュー表現を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:17:50Z) - Self-Updating Vehicle Monitoring Framework Employing Distributed Acoustic Sensing towards Real-World Settings [5.306938463648908]
本稿では,都市環境に合わせて,リアルタイムな半教師付き車両監視フレームワークを提案する。
初期トレーニングにはわずかな手動ラベルしか必要とせず、モデル改善のためにラベル付けされていないデータを活用する。
車両の走行速度の異なる1台の車両を追尾するために、車両の軌跡形状を取り入れた新しい先行損失を提案する。
論文 参考訳(メタデータ) (2024-09-16T13:10:58Z) - An Attention-Based Multi-Context Convolutional Encoder-Decoder Neural Network for Work Zone Traffic Impact Prediction [6.14400858731508]
ワークゾーンは、非リカレント交通渋滞や道路事故の主な原因の1つである。
多様なプラットフォームからのワークゾーンとトラフィックデータの利用を向上させるデータ統合パイプラインを提案する。
計画された作業ゾーンイベントにおける交通速度と事故発生確率を予測するための新しい深層学習モデルを提案する。
論文 参考訳(メタデータ) (2024-05-31T17:38:49Z) - RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception [98.76525636842177]
RoScenesは、最大規模のマルチビューロードサイド認識データセットである。
私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
論文 参考訳(メタデータ) (2024-05-16T08:06:52Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - BootsTAP: Bootstrapped Training for Tracking-Any-Point [62.585297341343505]
Tracking-Any-Point (TAP) は、ビデオ中の固体表面上の任意の点を追跡するアルゴリズムとして形式化することができる。
大規模でラベルなし、未修正のリアルワールドデータが、最小限のアーキテクチャ変更でTAPモデルを改善することができることを示す。
我々は,TAP-Vidベンチマークにおける最先端性能が,従来の結果よりも広いマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-01T18:38:55Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - WEDGE: A multi-weather autonomous driving dataset built from generative
vision-language models [51.61662672912017]
本稿では,視覚言語生成モデルを用いて生成した合成データセットWEDGEを紹介する。
WEDGEは16の極度の気象条件で3360枚の画像で構成され、16513個の境界ボックスを手動で注釈付けしている。
53.87%の検定精度と45.41mAPで分類・検出のためのベースライン性能を確立した。
論文 参考訳(メタデータ) (2023-05-12T14:42:47Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - Real-Time And Robust 3D Object Detection with Roadside LiDARs [20.10416681832639]
道路沿いのLiDARにおける交通参加者をリアルタイムに検出できる3次元物体検出モデルを設計する。
我々のモデルは既存の3D検出器をベースラインとして使用し、精度を向上させる。
スマートシティのアプリケーションに使用できるLiDARベースの3D検出器に多大な貢献をしています。
論文 参考訳(メタデータ) (2022-07-11T21:33:42Z) - Predicting Driver Intention Using Deep Neural Network [0.0]
本稿では,Brain4Carsデータセットを用いたダイバー操作の予測に4つの入力を使用する新しいフレームワークを提案する。
フレームワークを3つのシナリオで評価しました。
最先端の研究と比較すると、アーキテクチャは高速で、2番目と3番目のシナリオで高いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-05-31T08:34:57Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。