論文の概要: TransReID: Transformer-based Object Re-Identification
- arxiv url: http://arxiv.org/abs/2102.04378v1
- Date: Mon, 8 Feb 2021 17:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:37:37.728878
- Title: TransReID: Transformer-based Object Re-Identification
- Title(参考訳): TransReID:Transformerベースのオブジェクト再識別
- Authors: Shuting He, Hao Luo, Pichao Wang, Fan Wang, Hao Li, Wei Jiang
- Abstract要約: Vision Transformer (ViT) は、オブジェクト再識別(ReID)タスクのための純粋なトランスフォーマーベースのモデルである。
いくつかの適応により、強いベースラインのViT-BoTは、ViTをバックボーンとして構成される。
本稿では、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案し、これはReID研究に純粋なトランスフォーマーを用いた最初の研究である。
- 参考スコア(独自算出の注目度): 20.02035310635418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the Vision Transformer (ViT), a pure
transformer-based model, for the object re-identification (ReID) task. With
several adaptations, a strong baseline ViT-BoT is constructed with ViT as
backbone, which achieves comparable results to convolution neural networks-
(CNN-) based frameworks on several ReID benchmarks. Furthermore, two modules
are designed in consideration of the specialties of ReID data: (1) It is super
natural and simple for Transformer to encode non-visual information such as
camera or viewpoint into vector embedding representations. Plugging into these
embeddings, ViT holds the ability to eliminate the bias caused by diverse
cameras or viewpoints.(2) We design a Jigsaw branch, parallel with the Global
branch, to facilitate the training of the model in a two-branch learning
framework. In the Jigsaw branch, a jigsaw patch module is designed to learn
robust feature representation and help the training of transformer by shuffling
the patches. With these novel modules, we propose a pure-transformer framework
dubbed as TransReID, which is the first work to use a pure Transformer for ReID
research to the best of our knowledge. Experimental results of TransReID are
superior promising, which achieve state-of-the-art performance on both person
and vehicle ReID benchmarks.
- Abstract(参考訳): 本稿では、オブジェクト再同定(ReID)タスクのための、純粋なトランスフォーマーベースのモデルであるVision Transformer (ViT)について検討する。
いくつかの適応により、ViTをバックボーンとして強力なベースラインであるViT-BoTが構築され、いくつかのReIDベンチマークに基づく畳み込みニューラルネットワーク(CNN-)ベースのフレームワークと匹敵する結果が得られる。
さらに、2つのモジュールはReIDデータの特殊性を考慮して設計されている。(1)トランスフォーマーがカメラや視点などの非視覚情報をベクトル埋め込み表現にエンコードするのは超自然で簡単なことである。
これらの埋め込みをプラグインすることで、ViTは多様なカメラや視点によるバイアスを取り除くことができる。
2)グローバルブランチと並行してjigsawブランチを設計し,二分岐学習フレームワークでモデルのトレーニングを容易にする。
jigsawブランチでは、jigsaw patchモジュールが堅牢な機能表現を学習し、パッチをシャッフルすることでトランスフォーマーのトレーニングを支援するように設計されている。
これらの新しいモジュールにより、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案します。これは、ReID研究のための純粋なトランスフォーマーを私たちの知識を最大限に活用するための最初の仕事です。
TransReIDの実験結果は有望であり、人および車両のReIDベンチマークで最先端の性能を達成する。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T15:29:25Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - SOTR: Segmenting Objects with Transformers [0.0]
高品質なインスタンスセグメンテーションのための,新しい,フレキシブルで効果的なトランスフォーマーベースモデルを提案する。
提案手法は, TRansformer (SOTR) を用いたSegmenting Objects (Segmenting Objects) により, 分割パイプラインを単純化する。
我々のSOTRはMS COCOデータセットでよく機能し、最先端のインスタンスセグメンテーションアプローチを超えています。
論文 参考訳(メタデータ) (2021-08-15T14:10:11Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。