論文の概要: NMS Strikes Back
- arxiv url: http://arxiv.org/abs/2212.06137v1
- Date: Mon, 12 Dec 2022 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:04:28.581612
- Title: NMS Strikes Back
- Title(参考訳): NMSが復活
- Authors: Jeffrey Ouyang-Zhang, Jang Hyun Cho, Xingyi Zhou, Philipp
Kr\"ahenb\"uhl
- Abstract要約: Detection Transformer (DETR) は、トレーニング中に1対1のバイナリマッチングを使用して、クエリを直接ユニークなオブジェクトに変換する。
DETRにおける1対1のハンガリーマッチングとNMSを用いた従来の検出器における1対1のラベル割り当て
従来のIoUをベースとしたラベル割り当てでDeformable-DETRを訓練した検出器は,ResNet50のバックボーンで12エポック(スケジュールの1倍)で50.2mAPを達成した。
- 参考スコア(独自算出の注目度): 9.004005678155023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection Transformer (DETR) directly transforms queries to unique objects by
using one-to-one bipartite matching during training and enables end-to-end
object detection. Recently, these models have surpassed traditional detectors
on COCO with undeniable elegance. However, they differ from traditional
detectors in multiple designs, including model architecture and training
schedules, and thus the effectiveness of one-to-one matching is not fully
understood. In this work, we conduct a strict comparison between the one-to-one
Hungarian matching in DETRs and the one-to-many label assignments in
traditional detectors with non-maximum supervision (NMS). Surprisingly, we
observe one-to-many assignments with NMS consistently outperform standard
one-to-one matching under the same setting, with a significant gain of up to
2.5 mAP. Our detector that trains Deformable-DETR with traditional IoU-based
label assignment achieved 50.2 COCO mAP within 12 epochs (1x schedule) with
ResNet50 backbone, outperforming all existing traditional or transformer-based
detectors in this setting. On multiple datasets, schedules, and architectures,
we consistently show bipartite matching is unnecessary for performant detection
transformers. Furthermore, we attribute the success of detection transformers
to their expressive transformer architecture. Code is available at
https://github.com/jozhang97/DETA.
- Abstract(参考訳): Detection Transformer (DETR)は、トレーニング中に1対1のバイパーティイトマッチングを使用してクエリをユニークなオブジェクトに変換し、エンドツーエンドのオブジェクト検出を可能にする。
近年、これらのモデルはCOCO上の従来の検出器を優雅に越えている。
しかし、モデルアーキテクチャやトレーニングスケジュールを含む複数の設計における従来の検出器とは異なり、1対1マッチングの有効性は十分に理解されていない。
本研究では,DETRにおける1対1のハンガリー語マッチングと,NMSを用いた従来の検出器における1対多のラベル割り当てとの厳密な比較を行う。
意外なことに、NMSによる1対多の割り当ては、同じ設定で標準の1対1マッチングを一貫して上回り、最大2.5mAPで大幅に向上する。
従来のIoUをベースとしたラベル割り当てでDeformable-DETRをトレーニングする検出器は、ResNet50のバックボーンで12時間で50.2COCOmAPを達成した。
複数のデータセット、スケジュール、アーキテクチャにおいて、パフォーマンス検出変換器には二部マッチングが不要であることを示す。
さらに,検出トランスの成功は,その表現型トランスアーキテクチャによるものである。
コードはhttps://github.com/jozhang97/DETAで入手できる。
関連論文リスト
- Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。
検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文 参考訳(メタデータ) (2021-01-28T02:38:29Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。