論文の概要: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection
- arxiv url: http://arxiv.org/abs/2308.05480v1
- Date: Thu, 10 Aug 2023 10:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:48:43.691516
- Title: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection
- Title(参考訳): YOLO-MS:リアルタイム物体検出のためのマルチスケール表現学習の再考
- Authors: Yuming Chen, Xinbin Yuan, Ruiqi Wu, Jiabao Wang, Qibin Hou, Ming-Ming
Cheng
- Abstract要約: YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
- 参考スコア(独自算出の注目度): 80.11152626362109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim at providing the object detection community with an efficient and
performant object detector, termed YOLO-MS. The core design is based on a
series of investigations on how convolutions with different kernel sizes affect
the detection performance of objects at different scales. The outcome is a new
strategy that can strongly enhance multi-scale feature representations of
real-time object detectors. To verify the effectiveness of our strategy, we
build a network architecture, termed YOLO-MS. We train our YOLO-MS on the MS
COCO dataset from scratch without relying on any other large-scale datasets,
like ImageNet, or pre-trained weights. Without bells and whistles, our YOLO-MS
outperforms the recent state-of-the-art real-time object detectors, including
YOLO-v7 and RTMDet, when using a comparable number of parameters and FLOPs.
Taking the XS version of YOLO-MS as an example, with only 4.5M learnable
parameters and 8.7G FLOPs, it can achieve an AP score of 43%+ on MS COCO, which
is about 2%+ higher than RTMDet with the same model size. Moreover, our work
can also be used as a plug-and-play module for other YOLO models. Typically,
our method significantly improves the AP of YOLOv8 from 37%+ to 40%+ with even
fewer parameters and FLOPs. Code is available at
https://github.com/FishAndWasabi/YOLO-MS.
- Abstract(参考訳): 本研究の目的は, YOLO-MS と呼ばれる, 効率的かつ高性能な物体検出コミュニティを提供することである。
コア設計は、異なるカーネルサイズでの畳み込みが異なるスケールのオブジェクトの検出性能にどのように影響するかに関する一連の調査に基づいている。
結果は、リアルタイムオブジェクト検出器のマルチスケールな特徴表現を強力に強化する新しい戦略である。
戦略の有効性を検証するため,YOLO-MSと呼ばれるネットワークアーキテクチャを構築した。
私たちは、ImageNetや事前トレーニングされた重みなど、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちのYOLO-MSはベルとホイッスルなしで、同じ数のパラメータとFLOPを使用する場合、YOLO-v7やRTMDetを含む最新の最先端のリアルタイムオブジェクト検出器よりも優れています。
YOLO-MSのXSバージョンは4.5Mの学習可能なパラメータと8.7GのFLOPしか持たず、同じモデルサイズでRTMDetより約2%高いMS COCOでAPスコアが43%以上に達する。
また,他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても利用できる。
通常,本手法は,パラメータやFLOPを減らし,YOLOv8のAPを37%以上から40%以上に改善する。
コードはhttps://github.com/FishAndWasabi/YOLO-MSで入手できる。
関連論文リスト
- YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO [10.183459286746196]
YOLO Phantomは、史上最小のYOLOモデルのひとつです。
YOLO Phantomは最新のYOLOv8nモデルと同等の精度を実現し、パラメータとモデルサイズを同時に削減する。
実際の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証され、AWSベースの通知エンドポイントにシームレスに接続される。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - YOLOBench: Benchmarking Efficient Object Detectors on Embedded Systems [0.0873811641236639]
4つの異なるデータセットと4つの異なる組込みハードウェアプラットフォーム上で、550以上のYOLOベースのオブジェクト検出モデルからなるベンチマークであるYOLOBenchを提案する。
我々は,これらの検出器と固定訓練環境との公正かつ制御された比較を行うことにより,様々なモデルスケールのYOLOベースの1段検出器の精度と遅延数を収集する。
我々は、YOLOBenchのニューラルネットワーク探索で使用されるトレーニング不要な精度推定器を評価し、最先端のゼロコスト精度推定器はMACカウントのような単純なベースラインよりも優れており、その一部は効果的に使用できることを示した。
論文 参考訳(メタデータ) (2023-07-26T01:51:10Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - YOLOv6: A Single-Stage Object Detection Framework for Industrial
Applications [16.047499394184985]
YOLOv6-Nは、NVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットで35.9%APに達する。
YOLOv6-S は 495 FPS で 43.5% AP を攻撃し、他の主流検出器を同じ規模で上回っている。
YOLOv6-M/Lは、同様の推論速度を持つ他の検出器よりも精度(49.5%/52.3%)が高い。
論文 参考訳(メタデータ) (2022-09-07T07:47:58Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。