論文の概要: DECO: Query-Based End-to-End Object Detection with ConvNets
- arxiv url: http://arxiv.org/abs/2312.13735v1
- Date: Thu, 21 Dec 2023 10:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:19:09.359302
- Title: DECO: Query-Based End-to-End Object Detection with ConvNets
- Title(参考訳): DECO: ConvNetによるクエリベースのエンドツーエンドオブジェクト検出
- Authors: Xinghao Chen, Siwei Li, Yijing Yang, Yunhe Wang
- Abstract要約: 検出 ConvNet (DECO) は、バックボーンと畳み込みエンコーダ・デコーダアーキテクチャで構成されている。
その単純さにもかかわらず、DECOは検出精度と実行速度の点で競合性能を達成しています。
- 参考スコア(独自算出の注目度): 24.241682658267454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection Transformer (DETR) and its variants have shown great potential for
accurate object detection in recent years. The mechanism of object query
enables DETR family to directly obtain a fixed number of object predictions and
streamlines the detection pipeline. Meanwhile, recent studies also reveal that
with proper architecture design, convolution networks (ConvNets) also achieve
competitive performance with transformers, \eg, ConvNeXt. To this end, in this
paper we explore whether we could build a query-based end-to-end object
detection framework with ConvNets instead of sophisticated transformer
architecture. The proposed framework, \ie, Detection ConvNet (DECO), is
composed of a backbone and convolutional encoder-decoder architecture. We
carefully design the DECO encoder and propose a novel mechanism for our DECO
decoder to perform interaction between object queries and image features via
convolutional layers. We compare the proposed DECO against prior detectors on
the challenging COCO benchmark. Despite its simplicity, our DECO achieves
competitive performance in terms of detection accuracy and running speed.
Specifically, with the ResNet-50 and ConvNeXt-Tiny backbone, DECO obtains
$38.6\%$ and $40.8\%$ AP on COCO \textit{val} set with $35$ and $28$ FPS
respectively and outperforms the DETR model. Incorporated with advanced
multi-scale feature module, our DECO+ achieves $47.8\%$ AP with $34$ FPS. We
hope the proposed DECO brings another perspective for designing object
detection framework.
- Abstract(参考訳): 検出トランス (DETR) とその変種は, 近年, 精度の高い物体検出の可能性を示している。
オブジェクトクエリのメカニズムにより、detrファミリは固定数のオブジェクト予測を直接取得し、検出パイプラインを合理化する。
一方、最近の研究では、適切なアーキテクチャ設計により、convolution networks (convnets) もtransformers, \eg, convnextとの競合性能を達成している。
そこで本稿では,高度なトランスフォーマーアーキテクチャに代えて,convnetを用いたクエリベースのエンドツーエンドオブジェクト検出フレームワークを構築することができるか検討する。
提案するフレームワークである \ie, Detection ConvNet (DECO) は、バックボーンと畳み込みエンコーダ・デコーダアーキテクチャで構成されている。
我々は、decoエンコーダを慎重に設計し、畳み込み層を介してオブジェクトクエリと画像特徴間のインタラクションを行うための新しいメカニズムを提案する。
提案したDECを、挑戦的なCOCOベンチマークで先行検出器と比較する。
その単純さにもかかわらず、DECOは検出精度と実行速度の点で競合性能を達成する。
具体的には、ResNet-50 と ConvNeXt-Tiny のバックボーンで、DeCO は COCO \textit{val} の 358.6\%$ と 40.8\%$ AP を取得し、それぞれ 35$ と 288$ FPS が設定され、DETR モデルを上回っている。
先進的なマルチスケール機能モジュールを組み込んだdeco+は、34ドルのfpsで47.8\%$ apを達成します。
提案するdecoが、オブジェクト検出フレームワークの設計に別の視点をもたらすことを願っている。
関連論文リスト
- Deep Equilibrium Object Detection [24.69829309391189]
本稿では,ディープ平衡デコーダを設計し,新しいクエリベースのオブジェクト検出器(DEQDet)を提案する。
我々の実験では、DECDtはより早く収束し、メモリ消費を減らし、ベースラインよりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2023-08-18T13:56:03Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Deep Gradient Learning for Efficient Camouflaged Object Detection [152.24312279220598]
本稿では、勾配カモフラーグ型物体検出(COD)のためのオブジェクト監視を利用する新しいディープフレームワークであるDGNetを紹介する。
シンプルだが効率的なフレームワークから恩恵を受け、DGNetは既存の最先端のCODモデルよりも大きなマージンで優れている。
また,提案したDGNetは,ポリプのセグメンテーション,欠陥検出,透過的なオブジェクトセグメンテーションタスクにおいて良好に機能することを示した。
論文 参考訳(メタデータ) (2022-05-25T15:25:18Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Anchor DETR: Query Design for Transformer-Based Detector [24.925317590675203]
本稿では,トランスを用いた新しいクエリ設計を提案する。
オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
我々の設計では「一つの領域、複数のオブジェクト」という難題を解決するために、一つの位置で複数のオブジェクトを予測できる。
論文 参考訳(メタデータ) (2021-09-15T06:31:55Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - Efficient DETR: Improving End-to-End Object Detector with Dense Prior [7.348184873564071]
エンドツーエンドのオブジェクト検出のためのシンプルで効率的なパイプラインであるEfficient DETRを提案します。
密度検出とスパースセット検出の両方を利用することで、効率的なdetrはオブジェクトコンテナを初期化する前に密度を活用する。
MS COCOで行った実験により,3つのエンコーダ層と1つのデコーダ層しか持たない手法が,最先端のオブジェクト検出手法と競合する性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-04-03T06:14:24Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - VarifocalNet: An IoU-aware Dense Object Detector [11.580759212782812]
我々は、物体の存在感と位置決め精度の合同表現として、IACS(Iou-Aware Classification Score)を学習する。
IACSに基づいて、高密度物体検出器により、より正確な候補検出のランク付けが可能であることを示す。
FCOS+ATSSアーキテクチャに基づくIoU対応の高密度物体検出器を構築し,VarifocalNetあるいはVFNetと呼ぶ。
論文 参考訳(メタデータ) (2020-08-31T05:12:21Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。