論文の概要: Transformer-Based Deep Image Matching for Generalizable Person
Re-identification
- arxiv url: http://arxiv.org/abs/2105.14432v1
- Date: Sun, 30 May 2021 05:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:13:38.643836
- Title: Transformer-Based Deep Image Matching for Generalizable Person
Re-identification
- Title(参考訳): 一般化された人物再識別のためのトランスベース深部画像マッチング
- Authors: Shengcai Liao and Ling Shao
- Abstract要約: 画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
- 参考スコア(独自算出の注目度): 114.56752624945142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have recently gained increasing attention in computer vision.
However, existing studies mostly use Transformers for feature representation
learning, e.g. for image classification and dense predictions. In this work, we
further investigate the possibility of applying Transformers for image matching
and metric learning given pairs of images. We find that the Vision Transformer
(ViT) and the vanilla Transformer with decoders are not adequate for image
matching due to their lack of image-to-image attention. Thus, we further design
two naive solutions, i.e. query-gallery concatenation in ViT, and query-gallery
cross-attention in the vanilla Transformer. The latter improves the
performance, but it is still limited. This implies that the attention mechanism
in Transformers is primarily designed for global feature aggregation, which is
not naturally suitable for image matching. Accordingly, we propose a new
simplified decoder, which drops the full attention implementation with the
softmax weighting, keeping only the query-key similarity computation.
Additionally, global max pooling and a multilayer perceptron (MLP) head are
applied to decode the matching result. This way, the simplified decoder is
computationally more efficient, while at the same time more effective for image
matching. The proposed method, called TransMatcher, achieves state-of-the-art
performance in generalizable person re-identification, with up to 6.1% and 5.7%
performance gains in Rank-1 and mAP, respectively, on several popular datasets.
The source code of this study will be made publicly available.
- Abstract(参考訳): 近年、トランスフォーマーはコンピュータビジョンに注目が集まっている。
しかし、既存の研究は主に特徴表現学習にトランスフォーマーを使用している。
画像分類と密集予測に役立ちます
本研究では,画像マッチングとメトリック学習にトランスフォーマーを適用する可能性についてさらに検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
したがって、我々はさらに2つの単純解を設計する。
ViTにおけるクエリギャラリ結合、バニラトランスフォーマーにおけるクエリガラリクロスアテンション。
後者は性能が向上するが、まだ限定されている。
このことはトランスフォーマーのアテンションメカニズムが主にグローバルな特徴集約のために設計されていることを示唆している。
そこで本研究では,softmax重み付けによる完全注意実装を廃止し,クエリキー類似性計算のみを保持する新しい簡易デコーダを提案する。
さらに、マッチング結果を復号するために、グローバルマックスプーリングと多層パーセプトロン(MLP)ヘッドを適用する。
このように、単純化されたデコーダは計算効率が良く、同時に画像マッチングにも効果的である。
提案手法はTransMatcherと呼ばれ,複数の一般的なデータセットを用いて,最大6.1%と5.7%の性能向上を達成している。
この研究のソースコードは公開される予定だ。
関連論文リスト
- Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。
しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。
本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文 参考訳(メタデータ) (2022-10-21T12:17:12Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。