論文の概要: Simple Training Strategies and Model Scaling for Object Detection
- arxiv url: http://arxiv.org/abs/2107.00057v1
- Date: Wed, 30 Jun 2021 18:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-03 04:28:25.953542
- Title: Simple Training Strategies and Model Scaling for Object Detection
- Title(参考訳): オブジェクト検出のためのシンプルなトレーニング戦略とモデルスケーリング
- Authors: Xianzhi Du, Barret Zoph, Wei-Chih Hung, Tsung-Yi Lin
- Abstract要約: RetinaNetおよびRCNN検出器を用いたバニラResNet-FPNバックボーンのベンチマークを行った。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
- 参考スコア(独自算出の注目度): 38.27709720726833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The speed-accuracy Pareto curve of object detection systems have advanced
through a combination of better model architectures, training and inference
methods. In this paper, we methodically evaluate a variety of these techniques
to understand where most of the improvements in modern detection systems come
from. We benchmark these improvements on the vanilla ResNet-FPN backbone with
RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in
accuracy while being 30% faster in speed. We further provide simple scaling
strategies to generate family of models that form two Pareto curves, named
RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the
speed-accuracy trade-off between the one-stage RetinaNet detectors and
two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP
with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally,
we show the ResNet architecture, with three minor architectural changes,
outperforms EfficientNet as the backbone for object detection and instance
segmentation systems.
- Abstract(参考訳): オブジェクト検出システムの速度-精度のPareto曲線は、より良いモデルアーキテクチャ、トレーニングおよび推論手法の組み合わせによって進歩している。
本稿では,これらの手法を体系的に評価し,現代の検出システムにおける改善のほとんどがどこから来ているのかを理解する。
我々は、RetinaNetとRCNN検出器を用いたバニラResNet-FPNバックボーン上でこれらの改善をベンチマークした。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
さらに、RetinaNet-RS と Cascade RCNN-RS という2つのパレート曲線を形成するモデル群を生成するための単純なスケーリング戦略も提供する。
これらの単純な再スケール検出器は、1段のRetinaNet検出器と2段のRCNN検出器の間の速度精度のトレードオフを探索する。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
最後に、ResNetアーキテクチャを3つの小さなアーキテクチャ変更で示し、オブジェクト検出とインスタンスセグメンテーションシステムのバックボーンとしてEfficientNetより優れています。
関連論文リスト
- CLRKDNet: Speeding up Lane Detection with Knowledge Distillation [4.015241891536452]
本稿では,検出精度とリアルタイム性能のバランスをとる合理化モデルであるCLRKDNetを紹介する。
提案手法はCLRNetに匹敵する検出精度を維持しつつ,推論時間を最大60%削減する。
論文 参考訳(メタデータ) (2024-05-21T05:20:04Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Rock Classification Based on Residual Networks [4.256045122451066]
岩盤分類の問題に対処するために,残差ニューラルネットワークを用いた2つのアプローチを提案する。
ResNet34に基づくカーネルサイズや正規化メソッド,コンポジションを変更することで,テストデータセット上での精度を70.1%向上する。
マルチヘッド・セルフ・アテンションを組み込んだBoTNetのようなバックボーンを使って、モデルの内部残余接続も利用しています。
これにより、モデルのパフォーマンスが向上し、テストデータセットで73.7%の精度が達成される。
論文 参考訳(メタデータ) (2024-02-19T04:45:15Z) - Optimizing Anchor-based Detectors for Autonomous Driving Scenes [22.946814647030667]
本稿では、自律走行シーンにおける一般的なアンカーベース検出器のモデル改善と推定時間最適化について要約する。
高性能RCNN-RSおよびRetinaNet-RS検出フレームワークに基づいて,群衆シーンの小さな物体をよりよく検出するために,検出器に適応するための一連のフレームワークの改善について検討した。
論文 参考訳(メタデータ) (2022-08-11T22:44:59Z) - DETR++: Taming Your Multi-Scale Detection Transformer [22.522422934209807]
本稿では,Transformer-based detection,すなわちDETRを提案する。
トランスフォーマーの自己保持機構の二次的な複雑さのため、DETRはマルチスケールの機能を組み込むことはできない。
RICO アイコン検出では 11.5% AP で,RICO レイアウト抽出では 9.1% AP で検出結果を 1.9% AP で改善する新しいアーキテクチャ DETR++ を提案する。
論文 参考訳(メタデータ) (2022-06-07T02:38:31Z) - EResFD: Rediscovery of the Effectiveness of Standard Convolution for
Lightweight Face Detection [13.357235715178584]
顔検出のための軽量バックボーンアーキテクチャとして,標準的な畳み込みブロックの有効性を再検討する。
チャネル切断された標準畳み込み層は精度と推論速度を向上できることを示す。
提案する検出器EResFDは,CPU上でのVGA画像推測に37.7msしか要しないWIDER FACE Hardサブセット上で80.4%のmAPを得た。
論文 参考訳(メタデータ) (2022-04-04T02:30:43Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。