論文の概要: Transformers in Small Object Detection: A Benchmark and Survey of
State-of-the-Art
- arxiv url: http://arxiv.org/abs/2309.04902v1
- Date: Sun, 10 Sep 2023 00:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:36:38.456364
- Title: Transformers in Small Object Detection: A Benchmark and Survey of
State-of-the-Art
- Title(参考訳): 小型物体検出における変圧器:現状のベンチマークと調査
- Authors: Aref Miri Rekavandi, Shima Rashidi, Farid Boussaid, Stephen Hoefs,
Emre Akbas, Mohammed bennamoun
- Abstract要約: トランスフォーマーは、ほぼすべてのビデオや画像データセットにおいて、確立されたCNNベースの検出器を一貫して上回った。
小さなオブジェクトは、検出フレームワークにおいて最も難しいオブジェクトタイプの一つとして特定されている。
本研究は,小物体検出のための変圧器の開発研究を60回以上行った。
- 参考スコア(独自算出の注目度): 34.077422623505804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have rapidly gained popularity in computer vision, especially in
the field of object recognition and detection. Upon examining the outcomes of
state-of-the-art object detection methods, we noticed that transformers
consistently outperformed well-established CNN-based detectors in almost every
video or image dataset. While transformer-based approaches remain at the
forefront of small object detection (SOD) techniques, this paper aims to
explore the performance benefits offered by such extensive networks and
identify potential reasons for their SOD superiority. Small objects have been
identified as one of the most challenging object types in detection frameworks
due to their low visibility. We aim to investigate potential strategies that
could enhance transformers' performance in SOD. This survey presents a taxonomy
of over 60 research studies on developed transformers for the task of SOD,
spanning the years 2020 to 2023. These studies encompass a variety of detection
applications, including small object detection in generic images, aerial
images, medical images, active millimeter images, underwater images, and
videos. We also compile and present a list of 12 large-scale datasets suitable
for SOD that were overlooked in previous studies and compare the performance of
the reviewed studies using popular metrics such as mean Average Precision
(mAP), Frames Per Second (FPS), number of parameters, and more. Researchers can
keep track of newer studies on our web page, which is available at
\url{https://github.com/arekavandi/Transformer-SOD}.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョン、特に物体認識と検出の分野で急速に人気を集めている。
最先端の物体検出手法の結果を調べると、ほぼすべてのビデオや画像データセットにおいて、トランスフォーマーが常に確立されたcnnベースの検出器を上回っていることに気付きました。
トランスフォーマーに基づくアプローチは, 小型物体検出(SOD)技術の最前線に留まっているが, このような広範囲なネットワークがもたらすパフォーマンスのメリットを探求し, SODの優位性に対する潜在的な理由を明らかにすることを目的としている。
小さなオブジェクトは、可視性が低いため、検出フレームワークで最も難しいオブジェクトタイプのひとつとして認識されています。
我々は,SODにおけるトランスフォーマーの性能を高める潜在的戦略を検討することを目的とする。
本調査は,2020年から2023年までのSODタスクにおいて,開発トランスフォーマーに関する60以上の研究成果を報告した。
これらの研究には、一般的な画像の小さな物体検出、航空画像、医療画像、アクティブミリ画像、水中画像、ビデオなど、さまざまな検出応用が含まれている。
また,先行研究で見落とされたsodに適した12の大規模データセットの一覧をコンパイルして提示し,平均精度(map),フレーム毎秒(fps),パラメータ数など,一般的なメトリクスを用いたレビュー研究の性能比較を行った。
研究者は私たちのwebページで新しい研究を追跡することができ、これは \url{https://github.com/arekavandi/transformer-sod}で見ることができる。
関連論文リスト
- Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images [11.648151981111436]
本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
異なる方法でオブジェクトクエリを変更し、ポイントを使用し、アンカーボックスを使用し、パフォーマンスを高めるためにアンカーに正と負のノイズを追加します。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-23T14:46:03Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Aerial Image Object Detection With Vision Transformer Detector (ViTDet) [0.0]
Vision Transformer Detector (ViTDet) はオブジェクト検出のためのマルチスケール特徴を抽出するために提案されている。
ViTDetのシンプルな設計は、自然のシーン画像に優れた性能を実現し、どんな検出器アーキテクチャにも簡単に組み込むことができる。
以上の結果から,VTDetは水平バウンディングボックス(HBB)オブジェクト検出において,畳み込みニューラルネットワークよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-28T02:25:30Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Searching Intrinsic Dimensions of Vision Transformers [6.004704152622424]
我々は,物体検出などの複雑な視覚タスクに対して,視覚変換器のバックボーンを刈り取る方法であるSiDTを提案する。
CIFAR-100とCOCOデータセットの実験は、刈り取られた20%または40%の次元/パラメータを持つバックボーンが、未刈取モデルと同じような、あるいはそれ以上のパフォーマンスを持つことを示した。
論文 参考訳(メタデータ) (2022-04-16T05:16:35Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。