論文の概要: Dense Distinct Query for End-to-End Object Detection
- arxiv url: http://arxiv.org/abs/2303.12776v2
- Date: Wed, 5 Jul 2023 13:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:47:18.893383
- Title: Dense Distinct Query for End-to-End Object Detection
- Title(参考訳): 終端物体検出のためのDense Distinct Query
- Authors: Shilong Zhang, Xinjiang Wang, Jiaqi Wang, Jiangmiao Pang, Chengqi Lyu,
Wenwei Zhang, Ping Luo, Kai Chen
- Abstract要約: オブジェクト検出における1対1の割り当ては、非最大抑制の必要性を回避した。
本稿では,Dense Distinct Queries (DDQ) の解法について述べる。
DDQは従来のエンドツーエンド検出器と最近のエンド・ツー・エンド検出器の利点をブレンドし、様々な検出器の性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 39.32011383066249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-to-one label assignment in object detection has successfully obviated the
need for non-maximum suppression (NMS) as postprocessing and makes the pipeline
end-to-end. However, it triggers a new dilemma as the widely used sparse
queries cannot guarantee a high recall, while dense queries inevitably bring
more similar queries and encounter optimization difficulties. As both sparse
and dense queries are problematic, then what are the expected queries in
end-to-end object detection? This paper shows that the solution should be Dense
Distinct Queries (DDQ). Concretely, we first lay dense queries like traditional
detectors and then select distinct ones for one-to-one assignments. DDQ blends
the advantages of traditional and recent end-to-end detectors and significantly
improves the performance of various detectors including FCN, R-CNN, and DETRs.
Most impressively, DDQ-DETR achieves 52.1 AP on MS-COCO dataset within 12
epochs using a ResNet-50 backbone, outperforming all existing detectors in the
same setting. DDQ also shares the benefit of end-to-end detectors in crowded
scenes and achieves 93.8 AP on CrowdHuman. We hope DDQ can inspire researchers
to consider the complementarity between traditional methods and end-to-end
detectors. The source code can be found at
\url{https://github.com/jshilong/DDQ}.
- Abstract(参考訳): オブジェクト検出における1対1のラベル割り当ては、後処理としての非最大抑圧(NMS)の必要性を回避し、パイプラインをエンドツーエンドにする。
しかし、広く使われているスパースクエリは高いリコールを保証することができず、高密度クエリは必然的に同様のクエリをもたらし、最適化の困難に直面するため、新しいジレンマを引き起こす。
スパースクエリと高密度クエリの両方が問題となるので、エンドツーエンドのオブジェクト検出で期待されるクエリは何ですか?
本稿では,Dense Distinct Queries (DDQ) の解法を示す。
具体的には、まず従来の検出器のように密度の高いクエリを配置し、次に1対1の割り当てに対して異なるクエリを選択する。
DDQは、従来のエンドツーエンド検出器と最近のエンドツーエンド検出器の利点を融合させ、FCN、R-CNN、DETRなどの様々な検出器の性能を大幅に向上させる。
最も印象的なことに、DDQ-DETRはResNet-50のバックボーンを使用して12時間以内にMS-COCOデータセット上で52.1 APを達成した。
DDQはまた、混雑したシーンでエンドツーエンド検出器の利点を共有し、CrowdHumanで93.8 APを達成した。
DDQが研究者に、従来の方法とエンドツーエンドの検出器の相補性を考えることを願っている。
ソースコードは \url{https://github.com/jshilong/DDQ} にある。
関連論文リスト
- Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images [26.37802649901314]
効率的なデコーダを備えたエンドツーエンド指向型検出器を提案する。
回転RoIアテンションと選択離散クエリ(SDQ)を提案する。
本手法は, ResNet50バックボーンを用いたDIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-29T13:43:17Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Featurized Query R-CNN [41.40318163261041]
本稿では,より高速なR-CNNフレームワークにおいて,クエリ生成ネットワークによって予測されるオブジェクトクエリについて述べる。
我々のFaturized Query R-CNNは、最新の技術であるスパースR-CNN検出器を含むすべてのR-CNN検出器の中で、最高の速度精度のトレードオフを得る。
論文 参考訳(メタデータ) (2022-06-13T15:40:19Z) - What Are Expected Queries in End-to-End Object Detection? [28.393693394478724]
提案するクエリは COCO Distinct Queries (DDQ) でなければならない。
DDQはより強く、より堅牢で、従来の方法よりも早く収束する。
MSarity検出データセットでは、12エポックしか持たない44.5 APが得られている。
論文 参考訳(メタデータ) (2022-06-02T18:15:44Z) - AdaMixer: A Fast-Converging Query-Based Object Detector [32.159871347459166]
本稿では,AdaMixerという高速収束型クエリベースオブジェクト検出器を提案する。
AdaMixerは、明示的なピラミッドネットワークを必要としない、アーキテクチャの単純さを持っている。
私たちの研究は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。
論文 参考訳(メタデータ) (2022-03-30T17:45:02Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Anchor DETR: Query Design for Transformer-Based Detector [24.925317590675203]
本稿では,トランスを用いた新しいクエリ設計を提案する。
オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
我々の設計では「一つの領域、複数のオブジェクト」という難題を解決するために、一つの位置で複数のオブジェクトを予測できる。
論文 参考訳(メタデータ) (2021-09-15T06:31:55Z) - End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。
局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。
エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-07T09:14:55Z) - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals [77.9701193170127]
Sparse R-CNNは、画像中の物体検出のための純粋にスパースな方法である。
最終的な予測は、最大でない処理後抑制なしで直接出力される。
われわれの研究が、物体検知器に先立って密集した慣例を再考することを願っている。
論文 参考訳(メタデータ) (2020-11-25T00:01:28Z) - FCOS: A simple and strong anchor-free object detector [111.87691210818194]
物体検出を画素ごとの予測方式で解くために, 完全畳み込み型一段物検出器 (FCOS) を提案する。
RetinaNet、SSD、YOLOv3、Faster R-CNNといった最先端のオブジェクト検出器のほとんどは、事前に定義されたアンカーボックスに依存している。
対照的に、提案した検出器FCOSはアンカーボックスフリーであり、提案はフリーである。
論文 参考訳(メタデータ) (2020-06-14T01:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。