論文の概要: Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors
- arxiv url: http://arxiv.org/abs/2208.11356v2
- Date: Fri, 24 Mar 2023 02:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:41:50.328321
- Title: Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors
- Title(参考訳): 変圧器を用いた物体検出装置における多機能化に向けて
- Authors: Gongjie Zhang, Zhipeng Luo, Zichen Tian, Jingyi Zhang, Xiaoqin Zhang,
Shijian Lu
- Abstract要約: マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
- 参考スコア(独自算出の注目度): 49.83396285177385
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-scale features have been proven highly effective for object detection
but often come with huge and even prohibitive extra computation costs,
especially for the recent Transformer-based detectors. In this paper, we
propose Iterative Multi-scale Feature Aggregation (IMFA) -- a generic paradigm
that enables efficient use of multi-scale features in Transformer-based object
detectors. The core idea is to exploit sparse multi-scale features from just a
few crucial locations, and it is achieved with two novel designs. First, IMFA
rearranges the Transformer encoder-decoder pipeline so that the encoded
features can be iteratively updated based on the detection predictions. Second,
IMFA sparsely samples scale-adaptive features for refined detection from just a
few keypoint locations under the guidance of prior detection predictions. As a
result, the sampled multi-scale features are sparse yet still highly beneficial
for object detection. Extensive experiments show that the proposed IMFA boosts
the performance of multiple Transformer-based object detectors significantly
yet with only slight computational overhead.
- Abstract(参考訳): マルチスケールの機能はオブジェクト検出に非常に効果的であることが証明されているが、特に最近のTransformerベースの検出器では、大きな計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール特徴の効率的な利用を可能にする汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
中心となるアイデアは、いくつかの重要な場所からスパースなマルチスケール機能を活用し、2つの斬新なデザインで達成することだ。
まず、IMFAはTransformerエンコーダ-デコーダパイプラインを再構成し、検出予測に基づいてコード化された特徴を反復的に更新する。
第2に、IMFAは事前検出予測のガイダンスに基づき、わずか数箇所のキーポイント位置からの精密検出のためのスケール適応的特徴をわずかにサンプリングした。
その結果、サンプルされたマルチスケール機能は少ないが、オブジェクト検出には非常に有益である。
広範囲な実験により、提案されたIMFAは、わずかな計算オーバーヘッドだけで、複数のトランスフォーマーベースの物体検出器の性能を大幅に向上させることを示した。
関連論文リスト
- Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - SRF-GAN: Super-Resolved Feature GAN for Multi-Scale Representation [5.634825161148483]
畳み込み型物体検出器の超解像特性のための新しい生成器を提案する。
本稿では,検出ベースジェネレータと特徴パッチ識別器で構成される超解像GAN(SRF-GAN)を設計する。
我々のSRFジェネレータは従来の方法に代えて、他の従来の検出器と簡単に微調整できる。
論文 参考訳(メタデータ) (2020-11-17T06:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。