論文の概要: AdaMixer: A Fast-Converging Query-Based Object Detector
- arxiv url: http://arxiv.org/abs/2203.16507v2
- Date: Thu, 31 Mar 2022 10:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 12:07:34.602193
- Title: AdaMixer: A Fast-Converging Query-Based Object Detector
- Title(参考訳): AdaMixer: 高速に収束するクエリベースのオブジェクト検出器
- Authors: Ziteng Gao, Limin Wang, Bing Han, Sheng Guo
- Abstract要約: 本稿では,AdaMixerという高速収束型クエリベースオブジェクト検出器を提案する。
AdaMixerは、明示的なピラミッドネットワークを必要としない、アーキテクチャの単純さを持っている。
私たちの研究は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。
- 参考スコア(独自算出の注目度): 32.159871347459166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional object detectors employ the dense paradigm of scanning over
locations and scales in an image. The recent query-based object detectors break
this convention by decoding image features with a set of learnable queries.
However, this paradigm still suffers from slow convergence, limited
performance, and design complexity of extra networks between backbone and
decoder. In this paper, we find that the key to these issues is the
adaptability of decoders for casting queries to varying objects. Accordingly,
we propose a fast-converging query-based detector, named AdaMixer, by improving
the adaptability of query-based decoding processes in two aspects. First, each
query adaptively samples features over space and scales based on estimated
offsets, which allows AdaMixer to efficiently attend to the coherent regions of
objects. Then, we dynamically decode these sampled features with an adaptive
MLP-Mixer under the guidance of each query. Thanks to these two critical
designs, AdaMixer enjoys architectural simplicity without requiring dense
attentional encoders or explicit pyramid networks. On the challenging MS COCO
benchmark, AdaMixer with ResNet-50 as the backbone, with 12 training epochs,
reaches up to 45.0 AP on the validation set along with 27.9 APs in detecting
small objects. With the longer training scheme, AdaMixer with ResNeXt-101-DCN
and Swin-S reaches 49.5 and 51.3 AP. Our work sheds light on a simple,
accurate, and fast converging architecture for query-based object detectors.
The code is made available at https://github.com/MCG-NJU/AdaMixer
- Abstract(参考訳): 従来の物体検出器は、画像中の場所やスケールを走査する密集したパラダイムを採用している。
最近のクエリベースのオブジェクト検出器は、画像の特徴を学習可能なクエリのセットでデコードすることで、この規約を破っている。
しかしながら、このパラダイムは、バックボーンとデコーダの間の余分なネットワークの収束の遅さ、性能の制限、設計上の複雑さに悩まされている。
本稿では,様々なオブジェクトにクエリをキャストするためのデコーダの適応性が課題の鍵であることを示す。
そこで本研究では,クエリベースの復号処理の2つの側面から適応性を向上させることにより,高速収束型クエリベース検出器adamixerを提案する。
まず、各クエリは、推定オフセットに基づいてスペースとスケールを適応的にサンプリングし、adamixerがオブジェクトのコヒーレントな領域に効率的に出席できるようにします。
そして,各クエリのガイダンスに基づいて,適応型MLP-Mixerでこれらの特徴を動的に復号する。
この2つの重要な設計のおかげで、adamixerは集中エンコーダや明示的なピラミッドネットワークを必要とせずに、アーキテクチャの単純さを享受できる。
挑戦的なMS COCOベンチマークでは、ResNet-50をバックボーンとするAdaMixerが12のトレーニングエポックを持ち、検証セット上で最大45.0 APに達し、27.9 APで小さな物体を検出する。
より長いトレーニングスキームでは、ResNeXt-101-DCNとSwin-Sを使用したAdaMixerは49.5と51.3 APに達する。
私たちの仕事は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。
コードはhttps://github.com/mcg-nju/adamixerで入手できる。
関連論文リスト
- DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文 参考訳(メタデータ) (2024-03-19T06:54:33Z) - Deep Equilibrium Object Detection [24.69829309391189]
本稿では,ディープ平衡デコーダを設計し,新しいクエリベースのオブジェクト検出器(DEQDet)を提案する。
我々の実験では、DECDtはより早く収束し、メモリ消費を減らし、ベースラインよりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2023-08-18T13:56:03Z) - ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive
Sparse Anchor Generation [50.01244854344167]
適応スパースアンカージェネレータ(ASAG)の提案により、スパース検出器と密度検出器のパフォーマンスギャップを橋渡しする。
ASAGは、グリッドではなくパッチの動的なアンカーを予測することで、機能競合の問題を軽減する。
提案手法は高密度な手法より優れ,高速かつ高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-08-18T02:06:49Z) - StageInteractor: Query-based Object Detector with Cross-stage
Interaction [21.84964476813102]
そこで本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。
我々のモデルはベースラインを2.2 AP改善し、ResNet-50をバックボーンとして44.8 APを達成した。
トレーニング時間と300クエリにより、StageInteractorは51.1 APと52.2 APをそれぞれResNeXt-101-DCNとSwin-Sで達成している。
論文 参考訳(メタデータ) (2023-04-11T04:50:13Z) - Dense Distinct Query for End-to-End Object Detection [39.32011383066249]
オブジェクト検出における1対1の割り当ては、非最大抑制の必要性を回避した。
本稿では,Dense Distinct Queries (DDQ) の解法について述べる。
DDQは従来のエンドツーエンド検出器と最近のエンド・ツー・エンド検出器の利点をブレンドし、様々な検出器の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-22T17:42:22Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - Anchor DETR: Query Design for Transformer-Based Detector [24.925317590675203]
本稿では,トランスを用いた新しいクエリ設計を提案する。
オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
我々の設計では「一つの領域、複数のオブジェクト」という難題を解決するために、一つの位置で複数のオブジェクトを予測できる。
論文 参考訳(メタデータ) (2021-09-15T06:31:55Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - DetectoRS: Detecting Objects with Recursive Feature Pyramid and
Switchable Atrous Convolution [27.67084901207291]
物体検出のためのバックボーン設計において,2回検討・検討する機構について検討する。
マクロレベルでは、Feature Pyramid Networksから追加のフィードバック接続を組み込んだRecursive Feature Pyramidを提案する。
マイクロレベルでは、異なるアラスレートで特徴を包含し、結果を収集するスイッチブル・アラス・コンボリューションを提案する。
論文 参考訳(メタデータ) (2020-06-03T15:28:16Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。