Fugu-MT 論文翻訳(概要): Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis

論文の概要: Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis

arxiv url: http://arxiv.org/abs/2407.15199v1
Date: Sun, 21 Jul 2024 15:37:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 18:49:14.273250
Title: Multiple Object Detection and Tracking in Panoramic Videos for Cycling Safety Analysis
Title（参考訳）: 自転車安全解析のためのパノラマ映像における複数物体検出と追跡
Authors: Jingwei Guo, Meihui Wang, Ilya Ilyankou, Natchapon Jongwiriyanurak, Xiaowei Gao, Nicola Christie, James Haworth,
Abstract要約: 本プロジェクトは,事前学習対象検出モデルの予測性能を向上させるための3段階の手法を提案し,実装した。提案手法は、任意の入力解像度設定の下で、YOLO v5m6 と Faster RCNN-FPN の平均精度を改善する。テストビデオのオーバーテイクを検出すると、Fスコア0.88を達成する。
参考スコア（独自算出の注目度）: 0.06282171844772422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Panoramic cycling videos can record 360{\deg} views around the cyclists. Thus, it is essential to conduct automatic road user analysis on them using computer vision models to provide data for studies on cycling safety. However, the features of panoramic data such as severe distortions, large number of small objects and boundary continuity have brought great challenges to the existing CV models, including poor performance and evaluation methods that are no longer applicable. In addition, due to the lack of data with annotations, it is not easy to re-train the models. In response to these problems, the project proposed and implemented a three-step methodology: (1) improve the prediction performance of the pre-trained object detection models on panoramic data by projecting the original image into 4 perspective sub-images; (2) introduce supports for boundary continuity and category information into DeepSORT, a commonly used multiple object tracking model, and set an improved detection model as its detector; (3) using the tracking results, develop an application for detecting the overtaking behaviour of the surrounding vehicles. Evaluated on the panoramic cycling dataset built by the project, the proposed methodology improves the average precision of YOLO v5m6 and Faster RCNN-FPN under any input resolution setting. In addition, it raises MOTA and IDF1 of DeepSORT by 7.6\% and 9.7\% respectively. When detecting the overtakes in the test videos, it achieves the F-score of 0.88. The code is available on GitHub at github.com/cuppp1998/360_object_tracking to ensure the reproducibility and further improvements of results.
Abstract（参考訳）: パノラマサイクリングビデオは、サイクリストの周囲の360度映像を録画することができる。したがって, サイクリング安全研究のためのデータ提供のために, コンピュータビジョンモデルを用いて, 自動道路利用者分析を行うことが不可欠である。しかし, パノラマデータの特徴, 多数の小物体, 境界連続性などの特徴は, 従来のCVモデルに大きな課題をもたらしている。さらに、アノテーション付きのデータがないため、モデルを再トレーニングするのは簡単ではありません。これらの問題に対応するため,提案した3段階の手法として,(1)原画像を4視点のサブイメージに投影することで,パノラマデータ上での事前学習対象検出モデルの予測性能の向上,(2)共通に使用される複数物体追跡モデルであるDeepSORTにおける境界連続性およびカテゴリ情報のサポートの導入,(3)追跡結果を用いて周囲車両の過渡行動を検出するアプリケーションの開発,などが提案された。提案手法は,プロジェクトによって構築されたパノラマサイクリングデータセットに基づいて,任意の入力解像度設定下でのYOLO v5m6とFaster RCNN-FPNの平均精度を向上する。さらに、DeepSORTのMOTAとIDF1をそれぞれ7.6\%、9.7\%上昇させる。テストビデオのオーバーテイクを検出すると、Fスコア0.88を達成する。コードはGitHubのgithub.com/cuppp1998/360_object_trackingで公開されている。

関連論文リスト

Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection [11.33083039877258]
3次元セマンティック占有予測は、自動運転車の周囲環境の詳細な幾何学的・意味的な情報を予測することを目的としている。追加の3次元物体検出補助分岐を組み込んだ3次元監視信号を導入する。 IoUスコアは31.73%、mIoUスコアは20.91%である。
論文参考訳（メタデータ） (2025-04-07T05:08:22Z)
Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-18T17:59:12Z)
Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
車両内のカメラ位置の変化に耐えられるような頑健なモデルを導入する。我々のドライバ行動監視ネットワーク(DBMNet)は軽量なバックボーンに依存し、アンタングルメントモジュールを統合する。 100-Driverデータセットの夜間および夜間のサブセットで行った実験は、我々のアプローチの有効性を検証した。
論文参考訳（メタデータ） (2024-11-20T10:27:12Z)
Optimizing YOLO Architectures for Optimal Road Damage Detection and Classification: A Comparative Study from YOLOv7 to YOLOv10 [0.0]
本稿では,ディープラーニングモデルを用いた道路損傷検出のための総合ワークフローを提案する。ハードウェアの制約を満たすため、大きな画像が収穫され、軽量モデルが利用される。提案手法では,コーディネートアテンションレイヤを備えたカスタムYOLOv7モデルや,Tiny YOLOv7モデルなど,複数のモデルアーキテクチャを採用している。
論文参考訳（メタデータ） (2024-10-10T22:55:12Z)
Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection [9.708971995966476]
本稿では,これらの課題に対処するための2段階のトレーニング戦略を紹介する。当社のアプローチでは,大規模合成データセットであるRoadSense3Dのモデルをトレーニングしています。実世界のデータセットの組み合わせでモデルを微調整し、実用条件への適応性を高める。
論文参考訳（メタデータ） (2024-08-28T08:44:58Z)
TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文参考訳（メタデータ） (2024-07-08T13:28:47Z)
V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文参考訳（メタデータ） (2023-08-08T17:14:14Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
Multi-Camera Multiple 3D Object Tracking on the Move for Autonomous Vehicles [17.12321292167318]
オブジェクトの検出と追跡は、カメラのビューにまたがって一貫した結果を達成するなど、新しい課題に対処するために重要である。本研究は,既存のトラックレットの位置とリンク検出をトラックレットで予測するために,リンク予測を用いた新たなグローバルアソシエーショングラフモデルを提案する。本モデルは, nuScenes 検出課題における標準3次元物体検出器の検出精度の向上に有効である。
論文参考訳（メタデータ） (2022-04-19T22:50:36Z)
Weakly Supervised Training of Monocular 3D Object Detectors Using Wide Baseline Multi-view Traffic Camera Data [19.63193201107591]
交差点における車両の7DoF予測は,道路利用者間の潜在的な衝突を評価する上で重要な課題である。交通監視カメラ用3次元物体検出装置の微調整を弱教師付きで行う手法を開発した。提案手法は,自動運転車のデータセット上で最上位のモノクル3Dオブジェクト検出器と同等の精度で車両の7DoFの予測精度を推定する。
論文参考訳（メタデータ） (2021-10-21T08:26:48Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-07-16T18:27:08Z)
Road Curb Detection and Localization with Monocular Forward-view Vehicle Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文参考訳（メタデータ） (2020-02-28T00:24:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。