論文の概要: Siamese DETR
- arxiv url: http://arxiv.org/abs/2303.18144v1
- Date: Fri, 31 Mar 2023 15:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:27:07.428988
- Title: Siamese DETR
- Title(参考訳): シームズDeTR
- Authors: Zeren Chen, Gengshi Huang, Wei Li, Jianing Teng, Kun Wang, Jing Shao,
Chen Change Loy, Lu Sheng
- Abstract要約: 本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
- 参考スコア(独自算出の注目度): 87.45960774877798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent self-supervised methods are mainly designed for representation
learning with the base model, e.g., ResNets or ViTs. They cannot be easily
transferred to DETR, with task-specific Transformer modules. In this work, we
present Siamese DETR, a Siamese self-supervised pretraining approach for the
Transformer architecture in DETR. We consider learning view-invariant and
detection-oriented representations simultaneously through two complementary
tasks, i.e., localization and discrimination, in a novel multi-view learning
framework. Two self-supervised pretext tasks are designed: (i) Multi-View
Region Detection aims at learning to localize regions-of-interest between
augmented views of the input, and (ii) Multi-View Semantic Discrimination
attempts to improve object-level discrimination for each region. The proposed
Siamese DETR achieves state-of-the-art transfer performance on COCO and PASCAL
VOC detection using different DETR variants in all setups. Code is available at
https://github.com/Zx55/SiameseDETR.
- Abstract(参考訳): 最近の自己教師型手法は、主にベースモデル(ResNetsやViTsなど)による表現学習のために設計されている。
タスク固有のTransformerモジュールを持つDETRに簡単に転送することはできない。
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR について述べる。
我々は,新しい多視点学習フレームワークにおいて,局所化と識別という2つの相補的なタスクを通じて,視点不変性と検出指向の表現を同時に考える。
2つの自己管理型プレテキストタスクが設計されます。
(i)マルチビュー領域検出は、入力の強化ビューと関心領域のローカライズを学習することを目的とする。
(II)多視点セマンティック識別は各領域のオブジェクトレベルの識別を改善する。
提案したSiamese DETRは,COCOおよびPASCALVOC検出において,すべての設定で異なるDETR変種を用いて最先端の転送性能を実現する。
コードはhttps://github.com/Zx55/SiameseDETRで入手できる。
関連論文リスト
- TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Representation Separation for Semantic Segmentation with Vision
Transformers [11.431694321563322]
イメージをパッチのシーケンスとして符号化するビジョントランスフォーマー(ViT)は、セマンティックセグメンテーションの新しいパラダイムをもたらす。
局所パッチレベルと大域領域レベルでの表現分離の効率的な枠組みをViTを用いたセマンティックセグメンテーションに適用する。
論文 参考訳(メタデータ) (2022-12-28T09:54:52Z) - An Empirical Study Of Self-supervised Learning Approaches For Object
Detection With Transformers [0.0]
画像再構成,マスク画像モデリング,ジグソーに基づく自己監督手法について検討する。
iSAIDデータセットの予備実験は、事前学習とマルチタスク学習の両方において、初期のエポックにおけるDETRのより高速な収束を示す。
論文 参考訳(メタデータ) (2022-05-11T14:39:27Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation [24.08326440298189]
弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。
PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。
また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
論文 参考訳(メタデータ) (2021-12-16T16:26:14Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - TransReID: Transformer-based Object Re-Identification [20.02035310635418]
Vision Transformer (ViT) は、オブジェクト再識別(ReID)タスクのための純粋なトランスフォーマーベースのモデルである。
いくつかの適応により、強いベースラインのViT-BoTは、ViTをバックボーンとして構成される。
本稿では、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案し、これはReID研究に純粋なトランスフォーマーを用いた最初の研究である。
論文 参考訳(メタデータ) (2021-02-08T17:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。