論文の概要: YOLObile: Real-Time Object Detection on Mobile Devices via
Compression-Compilation Co-Design
- arxiv url: http://arxiv.org/abs/2009.05697v2
- Date: Wed, 30 Dec 2020 15:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 07:41:26.275235
- Title: YOLObile: Real-Time Object Detection on Mobile Devices via
Compression-Compilation Co-Design
- Title(参考訳): YOLObile:圧縮コンパイル協調設計によるモバイルデバイス上のリアルタイムオブジェクト検出
- Authors: Yuxuan Cai, Hongjia Li, Geng Yuan, Wei Niu, Yanyu Li, Xulong Tang, Bin
Ren, Yanzhi Wang
- Abstract要約: 本稿では,モバイル端末上でリアルタイムなオブジェクト検出を行う YOLObile フレームワークを提案する。
任意のカーネルサイズに対して新しいブロックパンチプルーニング方式を提案する。
YOLObileフレームワークでは,Samsung Galaxy S20上でGPUを用いて17FPSの推論速度を実現している。
- 参考スコア(独自算出の注目度): 38.98949683262209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development and wide utilization of object detection techniques
have aroused attention on both accuracy and speed of object detectors. However,
the current state-of-the-art object detection works are either
accuracy-oriented using a large model but leading to high latency or
speed-oriented using a lightweight model but sacrificing accuracy. In this
work, we propose YOLObile framework, a real-time object detection on mobile
devices via compression-compilation co-design. A novel block-punched pruning
scheme is proposed for any kernel size. To improve computational efficiency on
mobile devices, a GPU-CPU collaborative scheme is adopted along with advanced
compiler-assisted optimizations. Experimental results indicate that our pruning
scheme achieves 14$\times$ compression rate of YOLOv4 with 49.0 mAP. Under our
YOLObile framework, we achieve 17 FPS inference speed using GPU on Samsung
Galaxy S20. By incorporating our proposed GPU-CPU collaborative scheme, the
inference speed is increased to 19.1 FPS, and outperforms the original YOLOv4
by 5$\times$ speedup. Source code is at:
\url{https://github.com/nightsnack/YOLObile}.
- Abstract(参考訳): 物体検出技術の急速な発展と幅広い利用は、物体検出器の精度と速度の両方に注目を集めた。
しかし、現在の最先端のオブジェクト検出作業は、大きなモデルで精度指向であるが、軽量モデルで高いレイテンシや速度指向をもたらすが精度を犠牲にしている。
本研究では,モバイル端末上でリアルタイムなオブジェクト検出を行う YOLObile フレームワークを提案する。
任意のカーネルサイズに対して新しいブロックパンチプルーニング方式を提案する。
モバイルデバイス上での計算効率を向上させるため,GPU-CPU協調方式と高度なコンパイラ支援最適化が採用されている。
実験結果から, 49.0mAPのYOLOv4の14$\times$圧縮速度が得られた。
YOLObileフレームワークでは,Samsung Galaxy S20上でGPUを用いて17FPSの推論速度を実現する。
提案したGPU-CPU協調方式を取り入れることで、推論速度は19.1 FPSに向上し、元のYOLOv4を5$\times$ speedupで上回った。
ソースコードは: \url{https://github.com/nightsnack/YOLObile} にある。
関連論文リスト
- MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO [10.183459286746196]
YOLO Phantomは、史上最小のYOLOモデルのひとつです。
YOLO Phantomは最新のYOLOv8nモデルと同等の精度を実現し、パラメータとモデルサイズを同時に削減する。
実際の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証され、AWSベースの通知エンドポイントにシームレスに接続される。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - Developing a Compressed Object Detection Model based on YOLOv4 for
Deployment on Embedded GPU Platform of Autonomous System [0.0]
CNNベースのオブジェクト検出モデルは極めて正確だが、リアルタイムに実行するには高性能なGPUが必要である。
検出精度を維持しつつ、検出ネットワークをできるだけ軽量に圧縮することが好ましい。
本稿では,ハイ比で圧縮されたYOffleNetと呼ばれる新しい物体検出モデルを提案する。
論文 参考訳(メタデータ) (2021-08-01T08:19:51Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z) - DeepSperm: A robust and real-time bull sperm-cell detection in densely
populated semen videos [26.494850349599528]
この研究はDeepSpermと呼ばれるアーキテクチャを提案し、課題を解決し、最先端のアーキテクチャよりも正確で高速である。
実験では,テストデータセット上で86.91 mAP,処理速度50.3 fpsを達成した。
論文 参考訳(メタデータ) (2020-03-03T09:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。