論文の概要: DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2312.13735v2
- Date: Thu, 27 Feb 2025 14:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:53:18.430677
- Title: DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation
- Title(参考訳): DECO:クエリベースの検出とセグメンテーションのためのConvNetの可能性
- Authors: Xinghao Chen, Siwei Li, Yijing Yang, Yunhe Wang,
- Abstract要約: 本稿では、オブジェクトクエリと画像特徴との相互作用を畳み込み層を介して行うInterConvと呼ばれる新しいメカニズムを提案する。
提案したInterConvでは,バックボーンと畳み込みエンコーダ・デコーダアーキテクチャで構成される検出ConvNet(DECO)を構築している。
我々のDECは、検出精度と走行速度の点で競合性能を達成する。
- 参考スコア(独自算出の注目度): 22.19064240105095
- License:
- Abstract: Transformer and its variants have shown great potential for various vision tasks in recent years, including image classification, object detection and segmentation. Meanwhile, recent studies also reveal that with proper architecture design, convolutional networks (ConvNets) also achieve competitive performance with transformers. However, no prior methods have explored to utilize pure convolution to build a Transformer-style Decoder module, which is essential for Encoder-Decoder architecture like Detection Transformer (DETR). To this end, in this paper we explore whether we could build query-based detection and segmentation framework with ConvNets instead of sophisticated transformer architecture. We propose a novel mechanism dubbed InterConv to perform interaction between object queries and image features via convolutional layers. Equipped with the proposed InterConv, we build Detection ConvNet (DECO), which is composed of a backbone and convolutional encoder-decoder architecture. We compare the proposed DECO against prior detectors on the challenging COCO benchmark. Despite its simplicity, our DECO achieves competitive performance in terms of detection accuracy and running speed. Specifically, with the ResNet-18 and ResNet-50 backbone, our DECO achieves $40.5\%$ and $47.8\%$ AP with $66$ and $34$ FPS, respectively. The proposed method is also evaluated on the segment anything task, demonstrating similar performance and higher efficiency. We hope the proposed method brings another perspective for designing architectures for vision tasks. Codes are available at https://github.com/xinghaochen/DECO and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/DECO.
- Abstract(参考訳): トランスフォーマーとその変種は、画像分類、オブジェクト検出、セグメンテーションなど、近年様々な視覚タスクにおいて大きな可能性を示している。
一方、最近の研究では、適切なアーキテクチャ設計により、畳み込みネットワーク(ConvNet)がトランスフォーマーと競合する性能を達成することも明らかにされている。
しかし、トランスフォーマースタイルのデコーダモジュールを構築するために純粋な畳み込みを利用するための事前の手法は検討されておらず、これは検出トランスフォーマー(DETR)のようなエンコーダ・デコーダアーキテクチャに必須である。
そこで本稿では,高度なトランスフォーマーアーキテクチャではなく,クエリベースの検出とセグメンテーションフレームワークをConvNetsで構築できるかどうかを検討する。
本稿では、オブジェクトクエリと画像特徴との相互作用を畳み込み層を介して行うInterConvと呼ばれる新しいメカニズムを提案する。
提案したInterConvと合わせて,バックボーンと畳み込みエンコーダ・デコーダアーキテクチャで構成される検出ConvNet(DECO)を構築した。
我々は,提案したDECを,挑戦的なCOCOベンチマークで先行検出器と比較した。
その単純さにもかかわらず、DECOは検出精度と実行速度の点で競合性能を達成しています。
具体的には、ResNet-18とResNet-50のバックボーンによって、当社のDECは、それぞれ$40.5\%と$47.8\%のAPと$6$と$34$のFPSを達成した。
提案手法はセグメントの任意のタスク上でも評価され、同様の性能と高い効率を示す。
提案手法が視覚タスクのアーキテクチャ設計に新たな視点をもたらすことを願っている。
コードはhttps://github.com/xinghaochen/DECOとhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/DECOで公開されている。
関連論文リスト
- Deep Equilibrium Object Detection [24.69829309391189]
本稿では,ディープ平衡デコーダを設計し,新しいクエリベースのオブジェクト検出器(DEQDet)を提案する。
我々の実験では、DECDtはより早く収束し、メモリ消費を減らし、ベースラインよりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2023-08-18T13:56:03Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Deep Gradient Learning for Efficient Camouflaged Object Detection [152.24312279220598]
本稿では、勾配カモフラーグ型物体検出(COD)のためのオブジェクト監視を利用する新しいディープフレームワークであるDGNetを紹介する。
シンプルだが効率的なフレームワークから恩恵を受け、DGNetは既存の最先端のCODモデルよりも大きなマージンで優れている。
また,提案したDGNetは,ポリプのセグメンテーション,欠陥検出,透過的なオブジェクトセグメンテーションタスクにおいて良好に機能することを示した。
論文 参考訳(メタデータ) (2022-05-25T15:25:18Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Anchor DETR: Query Design for Transformer-Based Detector [24.925317590675203]
本稿では,トランスを用いた新しいクエリ設計を提案する。
オブジェクトクエリはアンカーポイントに基づいており、CNNベースの検出器で広く使われている。
我々の設計では「一つの領域、複数のオブジェクト」という難題を解決するために、一つの位置で複数のオブジェクトを予測できる。
論文 参考訳(メタデータ) (2021-09-15T06:31:55Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - Efficient DETR: Improving End-to-End Object Detector with Dense Prior [7.348184873564071]
エンドツーエンドのオブジェクト検出のためのシンプルで効率的なパイプラインであるEfficient DETRを提案します。
密度検出とスパースセット検出の両方を利用することで、効率的なdetrはオブジェクトコンテナを初期化する前に密度を活用する。
MS COCOで行った実験により,3つのエンコーダ層と1つのデコーダ層しか持たない手法が,最先端のオブジェクト検出手法と競合する性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-04-03T06:14:24Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - VarifocalNet: An IoU-aware Dense Object Detector [11.580759212782812]
我々は、物体の存在感と位置決め精度の合同表現として、IACS(Iou-Aware Classification Score)を学習する。
IACSに基づいて、高密度物体検出器により、より正確な候補検出のランク付けが可能であることを示す。
FCOS+ATSSアーキテクチャに基づくIoU対応の高密度物体検出器を構築し,VarifocalNetあるいはVFNetと呼ぶ。
論文 参考訳(メタデータ) (2020-08-31T05:12:21Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。