論文の概要: YOGA: Deep Object Detection in the Wild with Lightweight Feature
Learning and Multiscale Attention
- arxiv url: http://arxiv.org/abs/2307.05945v1
- Date: Wed, 12 Jul 2023 06:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:11:52.085996
- Title: YOGA: Deep Object Detection in the Wild with Lightweight Feature
Learning and Multiscale Attention
- Title(参考訳): yoga: 軽量な特徴学習とマルチスケールな注意を伴う野生の深部物体検出
- Authors: Raja Sunkara and Tie Luo
- Abstract要約: YOGAはディープラーニングベースの軽量オブジェクト検出モデルである。
競争力のある精度を保ちながら、ローエンドのエッジデバイスで操作することができる。
我々は、COCO-valおよびCOCO-testdevデータセット上のYOGAを、他の10以上の最先端オブジェクト検出器と比較した。
- 参考スコア(独自算出の注目度): 3.096615629099617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce YOGA, a deep learning based yet lightweight object detection
model that can operate on low-end edge devices while still achieving
competitive accuracy. The YOGA architecture consists of a two-phase feature
learning pipeline with a cheap linear transformation, which learns feature maps
using only half of the convolution filters required by conventional
convolutional neural networks. In addition, it performs multi-scale feature
fusion in its neck using an attention mechanism instead of the naive
concatenation used by conventional detectors. YOGA is a flexible model that can
be easily scaled up or down by several orders of magnitude to fit a broad range
of hardware constraints. We evaluate YOGA on COCO-val and COCO-testdev datasets
with other over 10 state-of-the-art object detectors. The results show that
YOGA strikes the best trade-off between model size and accuracy (up to 22%
increase of AP and 23-34% reduction of parameters and FLOPs), making it an
ideal choice for deployment in the wild on low-end edge devices. This is
further affirmed by our hardware implementation and evaluation on NVIDIA Jetson
Nano.
- Abstract(参考訳): 我々は,ディープラーニングをベースとした,かつ軽量なオブジェクト検出モデルであるYOGAを紹介し,競争精度を保ちながら,ローエンドエッジデバイス上で動作可能である。
YOGAアーキテクチャは、安価な線形変換を備えた2相機能学習パイプラインで構成され、従来の畳み込みニューラルネットワークで要求される畳み込みフィルタの半分で特徴マップを学習する。
さらに、従来の検出器で用いられるナイーブ結合の代わりに注意機構を用いて、首にマルチスケールの特徴融合を行う。
YOGAはフレキシブルなモデルであり、幅広いハードウェア制約に適合するために、数桁のスケールアップやスケールダウンが容易である。
我々は、COCO-valおよびCOCO-testdevデータセット上のYOGAを、他の10以上の最先端オブジェクト検出器と比較した。
その結果、YOGAはモデルサイズと精度の最良のトレードオフ(APの最大22%増加とパラメータとFLOPの最大23~34%削減)を達成し、ローエンドエッジデバイス上での配置に最適な選択肢であることがわかった。
これは、NVIDIA Jetson Nano上でのハードウェア実装と評価によってさらに裏付けられる。
関連論文リスト
- What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - Iterative Filter Pruning for Concatenation-based CNN Architectures [9.651318927588934]
現代の物体検出器は、連結を伴う高度に相互接続された畳み込み層を有する。
本稿では,畳み込み層間の接続グラフに基づいて,連結層を扱う手法を提案する。
FPGAとNVIDIA Jetson Xavier AGXにプルーンドモデルをデプロイする。
論文 参考訳(メタデータ) (2024-05-04T19:40:42Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - DAMO-YOLO : A Report on Real-Time Object Detection Design [19.06518351354291]
本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。
我々は最大エントロピーの原理で導かれるMAE-NASを用いて検出バックボーンを探索する。
「首と首のデザインでは、大首と小首の規則に従っている。」
論文 参考訳(メタデータ) (2022-11-23T17:59:12Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。