論文の概要: Replication Study and Benchmarking of Real-Time Object Detection Models
- arxiv url: http://arxiv.org/abs/2405.06911v1
- Date: Sat, 11 May 2024 04:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 19:22:14.469553
- Title: Replication Study and Benchmarking of Real-Time Object Detection Models
- Title(参考訳): 実時間物体検出モデルのレプリケーション研究とベンチマーク
- Authors: Pierre-Luc Asselin, Vincent Coulombe, William Guimont-Martin, William Larrivée-Hardy,
- Abstract要約: 複数のグラフィクスカードにおける物体検出モデルの精度と推論速度を比較した。
本稿では,MMDetectionの機能に基づく統合トレーニングと評価パイプラインを提案し,モデルの比較を改良する。
結果は精度と速度の間に強いトレードオフを示し、アンカーフリーモデルが優勢である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work examines the reproducibility and benchmarking of state-of-the-art real-time object detection models. As object detection models are often used in real-world contexts, such as robotics, where inference time is paramount, simply measuring models' accuracy is not enough to compare them. We thus compare a large variety of object detection models' accuracy and inference speed on multiple graphics cards. In addition to this large benchmarking attempt, we also reproduce the following models from scratch using PyTorch on the MS COCO 2017 dataset: DETR, RTMDet, ViTDet and YOLOv7. More importantly, we propose a unified training and evaluation pipeline, based on MMDetection's features, to better compare models. Our implementation of DETR and ViTDet could not achieve accuracy or speed performances comparable to what is declared in the original papers. On the other hand, reproduced RTMDet and YOLOv7 could match such performances. Studied papers are also found to be generally lacking for reproducibility purposes. As for MMDetection pretrained models, speed performances are severely reduced with limited computing resources (larger, more accurate models even more so). Moreover, results exhibit a strong trade-off between accuracy and speed, prevailed by anchor-free models - notably RTMDet or YOLOx models. The code used is this paper and all the experiments is available in the repository at https://github.com/Don767/segdet_mlcr2024.
- Abstract(参考訳): 本研究では、最先端のリアルタイムオブジェクト検出モデルの再現性とベンチマークについて検討する。
オブジェクト検出モデルは、推論時間が最重要となるロボット工学のような現実世界の文脈でよく使用されるため、単にモデルの精度を測るだけでは比較できない。
そこで我々は,複数のグラフィクスカード上での物体検出モデルの精度と推論速度を多種多様に比較した。
この大規模なベンチマークの試みに加えて、MS COCO 2017データセット(DETR, RTMDet, ViTDet, YOLOv7)でPyTorchをスクラッチから再現する。
さらに,MMDetectionの機能に基づく統合トレーニングと評価パイプラインを提案し,モデルの比較を改良する。
我々のDETRとViTDetの実装は、元の論文で宣言されたものと同等の精度や性能を達成できなかった。
一方、RTMDetとYOLOv7はそのような性能にマッチする。
研究論文は一般に再現性のために欠落している。
MMDetection事前訓練モデルでは、限られた計算資源(より大きく、より正確なモデル)で速度性能が大幅に低下する。
さらに、結果は精度とスピードの間に強いトレードオフを示し、特にRTMDetやYOLOxモデルのようなアンカーフリーモデルが優勢である。
使用されるコードは、この論文であり、すべての実験は、https://github.com/Don767/segdet_mlcr2024のリポジトリで利用可能である。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Textile Anomaly Detection: Evaluation of the State-of-the-Art for Automated Quality Inspection of Carpet [0.0]
羊毛カーペットの自動検査を目的として,最先端の教師なし検出モデルを評価した。
4種類の独自のカーペットテクスチャのカスタムデータセットが作成され、モデルを徹底的にテストした。
本研究の重要度は,異常領域の検出精度,誤検出回数,実時間における各モデルの推測時間である。
論文 参考訳(メタデータ) (2024-07-26T01:13:59Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - GC-GRU-N for Traffic Prediction using Loop Detector Data [5.735035463793008]
シアトルのループ検出器のデータを15分以上収集し、その問題を時空で再現する。
モデルは、最速の推論時間と非常に近いパフォーマンスで第2位(トランスフォーマー)。
論文 参考訳(メタデータ) (2022-11-13T06:32:28Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Real-time Human Detection Model for Edge Devices [0.0]
畳み込みニューラルネットワーク(CNN)は、検出と分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。
最近、リアルタイムタスクのために軽量CNNモデルが導入されている。
本稿では,Raspberry Piのような限られたエッジデバイスに適合するCNNベースの軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:42:17Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Meta-Cognition-Based Simple And Effective Approach To Object Detection [4.68287703447406]
物体検出のためのメタ認知学習戦略を探索し、検出速度を同時に維持しながら、一般化能力を向上させる。
実験の結果、絶対精度は2.6%(最小値)と4.4%(最大値)で、推論時間にオーバーヘッドはないことが示された。
論文 参考訳(メタデータ) (2020-12-02T13:36:51Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。