論文の概要: Efficient Decoder-free Object Detection with Transformers
- arxiv url: http://arxiv.org/abs/2206.06829v3
- Date: Thu, 16 Jun 2022 01:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 11:50:16.170895
- Title: Efficient Decoder-free Object Detection with Transformers
- Title(参考訳): 変圧器を用いた高効率デコーダフリー物体検出
- Authors: Peixian Chen, Mengdan Zhang, Yunhang Shen, Kekai Sheng, Yuting Gao,
Xing Sun, Ke Li, Chunhua Shen
- Abstract要約: 視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
- 参考スコア(独自算出の注目度): 75.00499377197475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision transformers (ViTs) are changing the landscape of object detection
approaches. A natural usage of ViTs in detection is to replace the CNN-based
backbone with a transformer-based backbone, which is straightforward and
effective, with the price of bringing considerable computation burden for
inference. More subtle usage is the DETR family, which eliminates the need for
many hand-designed components in object detection but introduces a decoder
demanding an extra-long time to converge. As a result, transformer-based object
detection can not prevail in large-scale applications. To overcome these
issues, we propose a novel decoder-free fully transformer-based (DFFT) object
detector, achieving high efficiency in both training and inference stages, for
the first time. We simplify objection detection into an encoder-only
single-level anchor-based dense prediction problem by centering around two
entry points: 1) Eliminate the training-inefficient decoder and leverage two
strong encoders to preserve the accuracy of single-level feature map
prediction; 2) Explore low-level semantic features for the detection task with
limited computational resources. In particular, we design a novel lightweight
detection-oriented transformer backbone that efficiently captures low-level
features with rich semantics based on a well-conceived ablation study.
Extensive experiments on the MS COCO benchmark demonstrate that DFFT_SMALL
outperforms DETR by 2.5% AP with 28% computation cost reduction and more than
$10$x fewer training epochs. Compared with the cutting-edge anchor-based
detector RetinaNet, DFFT_SMALL obtains over 5.5% AP gain while cutting down 70%
computation cost.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は、オブジェクト検出アプローチの展望を変えつつある。
検出におけるViTの自然な利用は、CNNベースのバックボーンをトランスフォーマーベースのバックボーンに置き換えることである。
より微妙な用途はDETRファミリであり、オブジェクト検出において多くの手設計のコンポーネントを必要としないが、収束するのに余分な時間を要するデコーダを導入する。
その結果、大規模なアプリケーションではトランスフォーマーベースのオブジェクト検出が利用できない。
これらの課題を克服するために, 初めて高い効率を達成する新しいデコーダフリー完全トランスフォーマー(dfft)オブジェクト検出器を提案する。
2つのエントリポイントを中心にして、エンコーダのみのシングルレベルアンカーに基づく密集予測問題に対する異論検出を単純化する。
1) トレーニング非効率デコーダを取り除き, 2つの強いエンコーダを活用して,シングルレベル特徴マップ予測の精度を維持すること。
2) 限られた計算資源で検出タスクの低レベルの意味的特徴を探索する。
特に,低レベル特徴をリッチなセマンティクスで効率的にキャプチャする軽量な検出指向のトランスフォーマーバックボーンの設計を行った。
MS COCOベンチマークの大規模な実験により、DFFT_SMALLはDeTRを2.5%向上させ、28%の計算コスト削減と10ドル以上のトレーニングエポックを減らした。
最先端のアンカーベースの検出器RetinaNetと比較して、DFFT_SMALLは計算コストを70%削減しながら5.5%以上のAPゲインを得る。
関連論文リスト
- Simplifying Two-Stage Detectors for On-Device Inference in Remote Sensing [0.7305342793164903]
本研究では,2段階物体検出器のモデル簡易化手法を提案する。
本手法は,DOTAv1.5データセットの2.1%以内の精度で計算コストを61.2%まで削減する。
論文 参考訳(メタデータ) (2024-04-11T00:45:10Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。