論文の概要: Object Detection with Transformers: A Review
- arxiv url: http://arxiv.org/abs/2306.04670v3
- Date: Mon, 10 Jul 2023 16:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 18:57:11.475432
- Title: Object Detection with Transformers: A Review
- Title(参考訳): 変圧器による物体検出 : レビュー
- Authors: Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker and Muhammad
Zeshan Afzal
- Abstract要約: 本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
- 参考スコア(独自算出の注目度): 11.255962936937744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The astounding performance of transformers in natural language processing
(NLP) has motivated researchers to explore their applications in computer
vision tasks. DEtection TRansformer (DETR) introduces transformers to object
detection tasks by reframing detection as a set prediction problem.
Consequently, eliminating the need for proposal generation and post-processing
steps. Initially, despite competitive performance, DETR suffered from slow
training convergence and ineffective detection of smaller objects. However,
numerous improvements are proposed to address these issues, leading to
substantial improvements in DETR and enabling it to exhibit state-of-the-art
performance. To our knowledge, this is the first paper to provide a
comprehensive review of 21 recently proposed advancements in the original DETR
model. We dive into both the foundational modules of DETR and its recent
enhancements, such as modifications to the backbone structure, query design
strategies, and refinements to attention mechanisms. Moreover, we conduct a
comparative analysis across various detection transformers, evaluating their
performance and network architectures. We hope that this study will ignite
further interest among researchers in addressing the existing challenges and
exploring the application of transformers in the object detection domain.
Readers interested in the ongoing developments in detection transformers can
refer to our website at:
https://github.com/mindgarage-shan/trans_object_detection_survey
- Abstract(参考訳): 自然言語処理(nlp)におけるトランスフォーマーの驚くべき性能は、研究者がコンピュータビジョンタスクにおける応用を探求する動機となった。
検出TRansformer(Detection TRansformer、DETR)は、オブジェクト検出タスクに対して、設定された予測問題として検出をフレーミングすることによってトランスフォーマーを導入する。
これにより、提案生成および後処理ステップの不要化が図られる。
当初、競合性能にもかかわらず、DETRは遅い訓練収束と小さな物体の非効率な検出に苦しんだ。
しかし、これらの問題に対処するために多くの改良が提案され、DETRが大幅に改善され、最先端の性能を示すことが可能になった。
我々の知る限り、本論文は、新たに提案された21のDETRモデルに関する総合的なレビューを提供する最初の論文である。
我々は、DETRの基本モジュールと、バックボーン構造の変更、クエリ設計戦略、注意機構の改良など、最近の拡張の両方について検討する。
さらに,様々な検出変圧器の比較分析を行い,その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
検出トランスフォーマーの現在進行中の開発に興味のある読者は、https://github.com/mindgarage-shan/trans_object_detection_survey.comのwebサイトを参照してほしい。
関連論文リスト
- Transformers in Small Object Detection: A Benchmark and Survey of
State-of-the-Art [34.077422623505804]
トランスフォーマーは、ほぼすべてのビデオや画像データセットにおいて、確立されたCNNベースの検出器を一貫して上回った。
小さなオブジェクトは、検出フレームワークにおいて最も難しいオブジェクトタイプの一つとして特定されている。
本研究は,小物体検出のための変圧器の開発研究を60回以上行った。
論文 参考訳(メタデータ) (2023-09-10T00:08:29Z) - Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images [11.648151981111436]
本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
異なる方法でオブジェクトクエリを変更し、ポイントを使用し、アンカーボックスを使用し、パフォーマンスを高めるためにアンカーに正と負のノイズを追加します。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-23T14:46:03Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。