論文の概要: Multi-Modal Camera-Based Detection of Vulnerable Road Users
- arxiv url: http://arxiv.org/abs/2509.06333v1
- Date: Mon, 08 Sep 2025 04:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.974839
- Title: Multi-Modal Camera-Based Detection of Vulnerable Road Users
- Title(参考訳): マルチモードカメラによる危険道路利用者の検出
- Authors: Penelope Brown, Julie Stephany Berrio Perez, Mao Shan, Stewart Worrall,
- Abstract要約: 本稿では、RGBと熱赤外イメージングを微調整したYOLOv8モデルと統合したマルチモーダル検出フレームワークを提案する。
実験によると、640ピクセルの解像度と部分的なバックボーン凍結は精度と効率を最適化し、クラス重み付き損失は希少なVRUのリコールを促進する。
その結果、熱モデルが最も精度が高く、RGB-熱膨張によりリコールが促進され、交差点でのVRU安全性を向上させるマルチモーダル検出の可能性が示された。
- 参考スコア(独自算出の注目度): 6.54359101227443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerable road users (VRUs) such as pedestrians, cyclists, and motorcyclists represent more than half of global traffic deaths, yet their detection remains challenging in poor lighting, adverse weather, and unbalanced data sets. This paper presents a multimodal detection framework that integrates RGB and thermal infrared imaging with a fine-tuned YOLOv8 model. Training leveraged KITTI, BDD100K, and Teledyne FLIR datasets, with class re-weighting and light augmentations to improve minority-class performance and robustness, experiments show that 640-pixel resolution and partial backbone freezing optimise accuracy and efficiency, while class-weighted losses enhance recall for rare VRUs. Results highlight that thermal models achieve the highest precision, and RGB-to-thermal augmentation boosts recall, demonstrating the potential of multimodal detection to improve VRU safety at intersections.
- Abstract(参考訳): 歩行者、サイクリスト、モーターサイクリストなどの脆弱性のある道路利用者(VRU)は、世界の交通事故の半数以上を占めているが、照明の悪さ、悪天候、バランスの取れていないデータセットでは依然として検出が困難である。
本稿では、RGBと熱赤外イメージングを微調整したYOLOv8モデルと統合したマルチモーダル検出フレームワークを提案する。
KITTI、BDD100K、Teledyne FLIRのデータセットを活用したトレーニングでは、クラス再重み付けと軽量化により、少数クラスのパフォーマンスと堅牢性が向上し、640ピクセルの解像度と部分的なバックボーン凍結が精度と効率を最適化し、クラス重み付き損失はレアVRUのリコールを促進する。
その結果、熱モデルが最も精度が高く、RGB-熱膨張によりリコールが促進され、交差点でのVRU安全性を向上させるマルチモーダル検出の可能性が示された。
関連論文リスト
- Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework [57.994965436344195]
ビームフォーミングは、方向と強度を最適化して信号伝送を改善するミリ波通信において重要な技術である。
マルチモーダルセンシング支援ビーム予測は,ユーザ位置やネットワーク条件を予測するために,さまざまなセンサデータを使用して注目されている。
その有望な可能性にもかかわらず、マルチモーダルセンシング支援ビーム予測の採用は、高い計算複雑性、高いコスト、限られたデータセットによって妨げられている。
論文 参考訳(メタデータ) (2025-04-07T15:38:25Z) - R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception [1.0602247913671219]
R-LiViTは、LiDAR、RGB、サーマルイメージングを道路面から組み合わせた最初のデータセットである。
1万のLiDARフレームと2,400の時間的および空間的に整列されたRGBと熱画像が150の交通シナリオにまたがっている。
論文 参考訳(メタデータ) (2025-03-21T13:17:28Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Radar Enlighten the Dark: Enhancing Low-Visibility Perception for
Automated Vehicles with Camera-Radar Fusion [8.946655323517094]
低視認性条件に対処するために,トランスフォーマーを用いた新しい3次元オブジェクト検出モデル"REDFormer"を提案する。
我々のモデルは、分類と検出精度で最先端(SOTA)モデルより優れている。
論文 参考訳(メタデータ) (2023-05-27T00:47:39Z) - Multi Visual Modality Fall Detection Dataset [4.00152916049695]
転倒は、世界中の高齢者の怪我による死亡の主な原因の1つだ。
効果的なフォールの検出は、合併症や怪我のリスクを減らすことができる。
しかし、通常のRGBカメラは照明条件やプライバシーの懸念によって影響を受ける。
論文 参考訳(メタデータ) (2022-06-25T21:54:26Z) - Vision in adverse weather: Augmentation using CycleGANs with various
object detectors for robust perception in autonomous racing [70.16043883381677]
自律レースでは、天気は突然変化し、認識が著しく低下し、非効率な操作が引き起こされる。
悪天候の検知を改善するために、ディープラーニングベースのモデルは通常、そのような状況下でキャプチャされた広範なデータセットを必要とする。
本稿では,5つの最先端検出器のうち4つの性能向上を図るために,自動レース(CycleGANを用いた)における合成悪条件データセットを用いた手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T10:02:40Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。