論文の概要: Precise Single-stage Detector
- arxiv url: http://arxiv.org/abs/2210.04252v1
- Date: Sun, 9 Oct 2022 12:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:21:36.511445
- Title: Precise Single-stage Detector
- Title(参考訳): 精密単段検出器
- Authors: Aisha Chandio, Gong Gui, Teerath Kumar, Irfan Ullah, Ramin
Ranjbarzadeh, Arunabha M Roy, Akhtar Hussain, and Yao Shen
- Abstract要約: 我々は、PSSD(Precise Single Stage Detector)と呼ばれるシングルショットマルチボックス検出器(SSD)の修正版を提案する。
このような問題に対処するため,我々はPSSD(Precise Single Stage Detector)と呼ばれる新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 2.2719729705587155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are still two problems in SDD causing some inaccurate results: (1) In
the process of feature extraction, with the layer-by-layer acquisition of
semantic information, local information is gradually lost, resulting into less
representative feature maps; (2) During the Non-Maximum Suppression (NMS)
algorithm due to inconsistency in classification and regression tasks, the
classification confidence and predicted detection position cannot accurately
indicate the position of the prediction boxes. Methods: In order to address
these aforementioned issues, we propose a new architecture, a modified version
of Single Shot Multibox Detector (SSD), named Precise Single Stage Detector
(PSSD). Firstly, we improve the features by adding extra layers to SSD.
Secondly, we construct a simple and effective feature enhancement module to
expand the receptive field step by step for each layer and enhance its local
and semantic information. Finally, we design a more efficient loss function to
predict the IOU between the prediction boxes and ground truth boxes, and the
threshold IOU guides classification training and attenuates the scores, which
are used by the NMS algorithm. Main Results: Benefiting from the above
optimization, the proposed model PSSD achieves exciting performance in
real-time. Specifically, with the hardware of Titan Xp and the input size of
320 pix, PSSD achieves 33.8 mAP at 45 FPS speed on MS COCO benchmark and 81.28
mAP at 66 FPS speed on Pascal VOC 2007 outperforming state-of-the-art object
detection models. Besides, the proposed model performs significantly well with
larger input size. Under 512 pix, PSSD can obtain 37.2 mAP with 27 FPS on MS
COCO and 82.82 mAP with 40 FPS on Pascal VOC 2007. The experiment results prove
that the proposed model has a better trade-off between speed and accuracy.
- Abstract(参考訳): There are still two problems in SDD causing some inaccurate results: (1) In the process of feature extraction, with the layer-by-layer acquisition of semantic information, local information is gradually lost, resulting into less representative feature maps; (2) During the Non-Maximum Suppression (NMS) algorithm due to inconsistency in classification and regression tasks, the classification confidence and predicted detection position cannot accurately indicate the position of the prediction boxes.
方法: 上記の問題に対処するため,我々は,PSSD (Precise Single Stage Detector) という,新しいアーキテクチャ,Single Shot Multibox Detector (SSD) の修正版を提案する。
まず、SSDにレイヤーを追加して機能を改善する。
第2に,各レイヤのステップごとに受容領域を拡大し,その局所的・意味的な情報を強化する,シンプルで効果的な機能拡張モジュールを構築する。
最後に,予測ボックスと接地真実ボックス間のIOUを予測するためのより効率的な損失関数を設計し,しきい値IOUはNMSアルゴリズムで使用されるスコアの分類訓練と減衰を行う。
主な結果: 上記の最適化から、提案したモデルPSSDは、リアルタイムでエキサイティングな性能を達成する。
具体的には、titan xpのハードウェアと320 pixの入力サイズにより、pssdは、ms cocoベンチマークで45 fpsの速度で33.8 map、pascal voc 2007で66 fpsの速度で81.28 mapを達成する。
さらに,提案モデルでは,入力サイズが大きくなるほど性能が良好である。
512ピクセル以下では、PSDはMS COCOで27 FPSの37.2 mAP、Pascal VOC 2007で82.82 mAP、Pascal VOC 2007で40 FPSの37.2 mAPが得られる。
実験の結果,提案モデルでは,速度と精度のトレードオフが良好であることが確認された。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - SPDY: Accurate Pruning with Speedup Guarantees [29.284147465251685]
SPDYは、所望の推論スピードアップを達成するために、レイヤーワイドのスパシティターゲットを自動的に決定する新しい圧縮手法である。
また,SPDYは,ワンショットおよび段階的なプルーニングシナリオにおいて,既存の戦略と比較して高い精度を回復しつつ,スピードアップを保証していることを示す。
また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
論文 参考訳(メタデータ) (2022-01-31T10:14:31Z) - Detecting Small Objects in Thermal Images Using Single-Shot Detector [12.72157936831052]
SSD(Single Shot Multibox Detector)は、高速かつ高精度な物体検出装置として最も成功した。
本稿では,小型オブジェクト検出のためのSSD上の性能向上を実現するための,新しい機能融合モジュールを備えた拡張SSDを提案する。
論文 参考訳(メタデータ) (2021-08-25T07:54:36Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - SAR-U-Net: squeeze-and-excitation block and atrous spatial pyramid
pooling based residual U-Net for automatic liver CT segmentation [3.192503074844775]
Squeeze-and-Excitation(SE)ブロック,Atrous Space Pyramid Pooling(ASPP),Resternal Learningといったテクニックを活用した,U-Netベースのフレームワークが提案されている。
提案手法の有効性を2つの公開データセットLiTS17とSLiver07で検証した。
論文 参考訳(メタデータ) (2021-03-11T02:32:59Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。