論文の概要: DETR++: Taming Your Multi-Scale Detection Transformer
- arxiv url: http://arxiv.org/abs/2206.02977v1
- Date: Tue, 7 Jun 2022 02:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:41:07.437689
- Title: DETR++: Taming Your Multi-Scale Detection Transformer
- Title(参考訳): DETR++: マルチスケール検出トランスのカスタマイズ
- Authors: Chi Zhang, Lijuan Liu, Xiaoxue Zang, Frederick Liu, Hao Zhang, Xinying
Song, Jindong Chen
- Abstract要約: 本稿では,Transformer-based detection,すなわちDETRを提案する。
トランスフォーマーの自己保持機構の二次的な複雑さのため、DETRはマルチスケールの機能を組み込むことはできない。
RICO アイコン検出では 11.5% AP で,RICO レイアウト抽出では 9.1% AP で検出結果を 1.9% AP で改善する新しいアーキテクチャ DETR++ を提案する。
- 参考スコア(独自算出の注目度): 22.522422934209807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNN) have dominated the field of detection
ever since the success of AlexNet in ImageNet classification [12]. With the
sweeping reform of Transformers [27] in natural language processing, Carion et
al. [2] introduce the Transformer-based detection method, i.e., DETR. However,
due to the quadratic complexity in the self-attention mechanism in the
Transformer, DETR is never able to incorporate multi-scale features as
performed in existing CNN-based detectors, leading to inferior results in small
object detection. To mitigate this issue and further improve performance of
DETR, in this work, we investigate different methods to incorporate multi-scale
features and find that a Bi-directional Feature Pyramid (BiFPN) works best with
DETR in further raising the detection precision. With this discovery, we
propose DETR++, a new architecture that improves detection results by 1.9% AP
on MS COCO 2017, 11.5% AP on RICO icon detection, and 9.1% AP on RICO layout
extraction over existing baselines.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は,ImageNet分類におけるAlexNetの成功以来,検出の領域を支配してきた[12]。
自然言語処理におけるトランスフォーマーの徹底的な改革 [27] , Carion et al。
[2] 変圧器に基づく検出法、すなわち detr を導入する。
しかし、変圧器の自己着脱機構の二次的な複雑さのため、detrは既存のcnnベースの検出器のようにマルチスケールの機能を組み込むことができないため、小さな物体検出では劣る結果となる。
この問題を緩和し,さらにDETRの性能向上を図るため,本研究では,マルチスケール特徴を組み込む様々な手法について検討し,両方向特徴ピラミッド(BiFPN)がDETRに最適であることを確認した。
この発見により,ms coco 2017では1.9% ap,ricoアイコン検出では11.5%,既存ベースライン上で9.1% apの検出結果を改善する新しいアーキテクチャであるdetr++を提案する。
関連論文リスト
- A DeNoising FPN With Transformer R-CNN for Tiny Object Detection [25.892598910922004]
そこで本稿では,Trans R-CNN (DNTR) を用いたFPNのデノベーション手法を提案する。
DNTRは、簡単なプラグイン設計、DeNoising FPN (DN-FPN)、効果的なTransformerベースの検出器であるTrans R-CNNで構成されている。
我々は、古いR-CNN検出器を新しいTrans R-CNN検出器に置き換え、自己注意を持つ小さな物体の表現に集中する。
論文 参考訳(メタデータ) (2024-06-09T12:18:15Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection [44.94166578314837]
我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-12T12:59:12Z) - Simple Training Strategies and Model Scaling for Object Detection [38.27709720726833]
RetinaNetおよびRCNN検出器を用いたバニラResNet-FPNバックボーンのベンチマークを行った。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
論文 参考訳(メタデータ) (2021-06-30T18:41:47Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。