論文の概要: 2D Object Detection with Transformers: A Review
- arxiv url: http://arxiv.org/abs/2306.04670v1
- Date: Wed, 7 Jun 2023 16:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:10:49.204397
- Title: 2D Object Detection with Transformers: A Review
- Title(参考訳): トランスフォーマーを用いた2次元物体検出
- Authors: Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker and Muhammad
Zeshan Afzal
- Abstract要約: 2020年以降、トランスフォーマーをベースとした物体検出が注目され、目覚ましい性能を見せている。
本稿では,DeTRの最近の進展について,21の論文を詳述する。
- 参考スコア(独自算出の注目度): 11.255962936937744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Astounding performance of Transformers in natural language processing (NLP)
has delighted researchers to explore their utilization in computer vision
tasks. Like other computer vision tasks, DEtection TRansformer (DETR)
introduces transformers for object detection tasks by considering the detection
as a set prediction problem without needing proposal generation and
post-processing steps. It is a state-of-the-art (SOTA) method for object
detection, particularly in scenarios where the number of objects in an image is
relatively small. Despite the success of DETR, it suffers from slow training
convergence and performance drops for small objects. Therefore, many
improvements are proposed to address these issues, leading to immense
refinement in DETR. Since 2020, transformer-based object detection has
attracted increasing interest and demonstrated impressive performance. Although
numerous surveys have been conducted on transformers in vision in general, a
review regarding advancements made in 2D object detection using transformers is
still missing. This paper gives a detailed review of twenty-one papers about
recent developments in DETR. We begin with the basic modules of Transformers,
such as self-attention, object queries and input features encoding. Then, we
cover the latest advancements in DETR, including backbone modification, query
design and attention refinement. We also compare all detection transformers in
terms of performance and network design. We hope this study will increase the
researcher's interest in solving existing challenges towards applying
transformers in the object detection domain. Researchers can follow newer
improvements in detection transformers on this webpage available at:
https://github.com/mindgarage-shan/trans_object_detection_survey
- Abstract(参考訳): 自然言語処理(NLP)におけるトランスフォーマーの性能向上は、コンピュータビジョンタスクにおけるその利用について研究者を喜ばせている。
他のコンピュータビジョンタスクと同様に、Detection TRansformer (DETR) は、提案生成と後処理のステップを必要とせず、セット予測問題として検出を考慮し、オブジェクト検出タスクのためのトランスフォーマーを導入している。
これは、特に画像中のオブジェクトの数が比較的小さいシナリオにおいて、オブジェクト検出のための最先端(SOTA)メソッドである。
DETRの成功にもかかわらず、訓練の収束が遅くなり、小さなオブジェクトのパフォーマンスが低下する。
したがって、これらの問題に対処するために多くの改良が提案され、DETRの大幅な改良につながった。
2020年以降、トランスフォーマーによる物体検出が注目され、目覚ましい性能を見せている。
視覚におけるトランスフォーマーに関する調査は数多く行われているが、トランスフォーマーを用いた2次元物体検出の進歩に関するレビューはいまだに欠けている。
本稿では,DeTRの最近の進展について,21の論文を詳述する。
まず、自己アテンション、オブジェクトクエリ、入力機能エンコーディングといったトランスフォーマーの基本モジュールから始めます。
次に、バックボーン修正、クエリ設計、アテンション改善など、DETRの最近の進歩について紹介する。
また、全ての検出トランスを性能とネットワーク設計の観点から比較する。
本研究は,オブジェクト検出領域におけるトランスフォーマーの適用に向けた既存の課題の解決に対する研究者の関心を高めることを願っている。
研究者は、このWebページで、新しい検出トランスフォーマーの改善に従うことができる。
関連論文リスト
- Transformers in Small Object Detection: A Benchmark and Survey of
State-of-the-Art [34.077422623505804]
トランスフォーマーは、ほぼすべてのビデオや画像データセットにおいて、確立されたCNNベースの検出器を一貫して上回った。
小さなオブジェクトは、検出フレームワークにおいて最も難しいオブジェクトタイプの一つとして特定されている。
本研究は,小物体検出のための変圧器の開発研究を60回以上行った。
論文 参考訳(メタデータ) (2023-09-10T00:08:29Z) - Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images [11.648151981111436]
本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
異なる方法でオブジェクトクエリを変更し、ポイントを使用し、アンカーボックスを使用し、パフォーマンスを高めるためにアンカーに正と負のノイズを追加します。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-23T14:46:03Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。