論文の概要: Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection
- arxiv url: http://arxiv.org/abs/2205.09613v1
- Date: Thu, 19 May 2022 15:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 13:58:14.981836
- Title: Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection
- Title(参考訳): 視覚オブジェクト検出のためのインテグレータ移行事前学習トランスフォーマーエンコーダ
- Authors: Xiaosong Zhang, Feng Liu, Zhiliang Peng, Zonghao Guo, Fang Wan,
Xiangyang Ji, Qixiang Ye
- Abstract要約: imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
- 参考スコア(独自算出の注目度): 78.2325219839805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern object detectors have taken the advantages of pre-trained vision
transformers by using them as backbone networks. However, except for the
backbone networks, other detector components, such as the detector head and the
feature pyramid network, remain randomly initialized, which hinders the
consistency between detectors and pre-trained models. In this study, we propose
to integrally migrate the pre-trained transformer encoder-decoders (imTED) for
object detection, constructing a feature extraction-operation path that is not
only "fully pre-trained" but also consistent with pre-trained models. The
essential improvements of imTED over existing transformer-based detectors are
twofold: (1) it embeds the pre-trained transformer decoder to the detector
head; and (2) it removes the feature pyramid network from the feature
extraction path. Such improvements significantly reduce the proportion of
randomly initialized parameters and enhance the generation capability of
detectors. Experiments on MS COCO dataset demonstrate that imTED consistently
outperforms its counterparts by ~2.8% AP. Without bells and whistles, imTED
improves the state-of-the-art of few-shot object detection by up to 7.6% AP,
demonstrating significantly higher generalization capability. Code will be made
publicly available.
- Abstract(参考訳): 現代の物体検出器は、事前訓練された視覚トランスフォーマーの利点をバックボーンネットワークとして活用している。
しかし、バックボーンネットワークを除き、検出器ヘッドや特徴ピラミッドネットワークなどの他の検出器コンポーネントはランダムに初期化されており、検出器と事前訓練されたモデル間の一貫性を阻害している。
本研究では,オブジェクト検出のための事前学習されたトランスコーダデコーダ(imted)を統合的に移行し,"完全に事前学習"されるだけでなく,事前学習されたモデルと整合する特徴抽出操作パスを構築することを提案する。
既存のトランスベースの検出器に対するimtedの基本的な改善点は、(1)プリトレーニングされたトランスデコーダを検出器ヘッドに組み込むこと、(2)特徴抽出経路から特徴ピラミッドネットワークを取り除くことである。
このような改善により、ランダムに初期化されたパラメータの比率が大幅に減少し、検出器の生成能力が向上する。
MS COCOデータセットの実験では、ImTEDはAPを約2.8%上回っている。
ベルとホイッスルがなければ、ImTEDは数発の物体検出の最先端を最大7.6%改善し、より高度な一般化能力を示す。
コードは公開される予定だ。
関連論文リスト
- Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。