論文の概要: Oriented Object Detection with Transformer
- arxiv url: http://arxiv.org/abs/2106.03146v1
- Date: Sun, 6 Jun 2021 14:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:05:39.350844
- Title: Oriented Object Detection with Transformer
- Title(参考訳): トランスフォーマによる指向性物体検出
- Authors: Teli Ma, Mingyuan Mao, Honghui Zheng, Peng Gao, Xiaodi Wang, Shumin
Han, Errui Ding, Baochang Zhang, David Doermann
- Abstract要約: 我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
- 参考スコア(独自算出の注目度): 51.634913687632604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection with Transformers (DETR) has achieved a competitive
performance over traditional detectors, such as Faster R-CNN. However, the
potential of DETR remains largely unexplored for the more challenging task of
arbitrary-oriented object detection problem. We provide the first attempt and
implement Oriented Object DEtection with TRansformer ($\bf O^2DETR$) based on
an end-to-end network. The contributions of $\rm O^2DETR$ include: 1) we
provide a new insight into oriented object detection, by applying Transformer
to directly and efficiently localize objects without a tedious process of
rotated anchors as in conventional detectors; 2) we design a simple but highly
efficient encoder for Transformer by replacing the attention mechanism with
depthwise separable convolution, which can significantly reduce the memory and
computational cost of using multi-scale features in the original Transformer;
3) our $\rm O^2DETR$ can be another new benchmark in the field of oriented
object detection, which achieves up to 3.85 mAP improvement over Faster R-CNN
and RetinaNet. We simply fine-tune the head mounted on $\rm O^2DETR$ in a
cascaded architecture and achieve a competitive performance over SOTA in the
DOTA dataset.
- Abstract(参考訳): Transformers (DETR) による物体検出は、より高速なR-CNNのような従来の検出器よりも競争力がある。
しかし、detrのポテンシャルは、任意指向オブジェクト検出問題のより困難な課題に対して、ほとんど未検討のままである。
エンドツーエンドネットワークをベースとしたTRansformer($\bf O^2DETR$)によるオブジェクト指向オブジェクト検出の実装を試みた。
The contributions of $\rm O^2DETR$ include: 1) we provide a new insight into oriented object detection, by applying Transformer to directly and efficiently localize objects without a tedious process of rotated anchors as in conventional detectors; 2) we design a simple but highly efficient encoder for Transformer by replacing the attention mechanism with depthwise separable convolution, which can significantly reduce the memory and computational cost of using multi-scale features in the original Transformer; 3) our $\rm O^2DETR$ can be another new benchmark in the field of oriented object detection, which achieves up to 3.85 mAP improvement over Faster R-CNN and RetinaNet.
単純に、ケースドアーキテクチャで$\rm O^2DETR$にマウントされたヘッドを微調整し、DOTAデータセットのSOTAよりも競合的なパフォーマンスを実現する。
関連論文リスト
- Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Efficient DETR: Improving End-to-End Object Detector with Dense Prior [7.348184873564071]
エンドツーエンドのオブジェクト検出のためのシンプルで効率的なパイプラインであるEfficient DETRを提案します。
密度検出とスパースセット検出の両方を利用することで、効率的なdetrはオブジェクトコンテナを初期化する前に密度を活用する。
MS COCOで行った実験により,3つのエンコーダ層と1つのデコーダ層しか持たない手法が,最先端のオブジェクト検出手法と競合する性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-04-03T06:14:24Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - End-to-End Object Detection with Adaptive Clustering Transformer [37.9114488933667]
適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。
ACTクラスタ クエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。
コードは、実験の複製と検証の容易さの補足としてリリースされている。
論文 参考訳(メタデータ) (2020-11-18T14:36:37Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。