論文の概要、ライセンス

# (参考訳) 局所認識トランスフォーマーによる人物再同定 [全文訳有]

Person Re-Identification with a Locally Aware Transformer ( http://arxiv.org/abs/2106.03720v2 )

ライセンス: CC BY 4.0
Charu Sharma, Siddhant R. Kapil, David Chapman(参考訳) 人物再同定はコンピュータビジョンに基づく監視アプリケーションにおいて重要な問題であり、同じ人物が近隣の様々な地域の監視写真から特定される。 現在、Person re-ID技術の大部分は畳み込みニューラルネットワーク(CNN)に基づいているが、視覚変換器はさまざまなオブジェクト認識タスクのために純粋なCNNを置き換え始めている。 視覚変換器の一次出力はグローバルな分類トークンであるが、視覚変換器は画像の局所領域に関する追加情報を含む局所トークンも生成する。 これらの局所トークンを用いて分類精度を向上させる技術は研究の活発な領域である。 そこで我々は,局所的に拡張された局所分類トークンを$\sqrt{N}$分類器のアンサンブルに集約する,Partsベースの畳み込みベースライン(PCB)にインスパイアされた戦略を取り入れた,局所認識変換器(LA-Transformer)を提案する。 さらに、ブロックワイズ細調整を取り入れることで、re-ID精度がさらに向上する点も新規である。 ブロックワイズ微調整付きla変換器は、マーケット-1501で0.13$の標準偏差で98.27$%、cuhk03データセットでそれぞれ0.2$の標準偏差で98.7\%のランク-1精度を達成し、執筆時点での他の最先端の公開メソッドよりも優れている。

Person Re-Identification is an important problem in computer vision-based surveillance applications, in which the same person is attempted to be identified from surveillance photographs in a variety of nearby zones. At present, the majority of Person re-ID techniques are based on Convolutional Neural Networks (CNNs), but Vision Transformers are beginning to displace pure CNNs for a variety of object recognition tasks. The primary output of a vision transformer is a global classification token, but vision transformers also yield local tokens which contain additional information about local regions of the image. Techniques to make use of these local tokens to improve classification accuracy are an active area of research. We propose a novel Locally Aware Transformer (LA-Transformer) that employs a Parts-based Convolution Baseline (PCB)-inspired strategy for aggregating globally enhanced local classification tokens into an ensemble of $\sqrt{N}$ classifiers, where $N$ is the number of patches. An additional novelty is that we incorporate blockwise fine-tuning which further improves re-ID accuracy. LA-Transformer with blockwise fine-tuning achieves rank-1 accuracy of $98.27 \%$ with standard deviation of $0.13$ on the Market-1501 and $98.7\%$ with standard deviation of $0.2$ on the CUHK03 dataset respectively, outperforming all other state-of-the-art published methods at the time of writing.
公開日: Tue, 8 Jun 2021 17:59:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] V C . 8 ] 略称はC。 0.73
s c [ 2 v 0 2 7 3 0 sc [ 2 v 0 2 7 3 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Person Re-Identification with a Locally Aware 地元の認識で再特定する人 0.62
Transformer Charu Sharma*, Siddhant R. Kapil*, David Chapman* 変圧器 Charu Sharma*, Siddhant R. Kapil*, David Chapman* 0.67
Baltimore MD 21250 ボルチモアMD21250 0.54
{charus2, skapil1, dchapm2}@umbc.edu {charus2, skapil1, dchapm2}@umbc.edu 0.78
* Contributed Equally Department of Computer Science ※等しく寄与 計算機科学専攻 0.62
University of Maryland Baltimore County メリーランド大学ボルチモア郡 0.49
Abstract Person Re-Identification is an important problem in computer vision-based surveillance applications, in which the same person is attempted to be identified from surveillance photographs in a variety of nearby zones. 概要 人物再同定はコンピュータビジョンに基づく監視アプリケーションにおいて重要な問題であり、同じ人物が近隣の様々な地域の監視写真から特定される。 0.58
At present, the majority of Person re-ID techniques are based on Convolutional Neural Networks (CNNs), but Vision Transformers are beginning to displace pure CNNs for a variety of object recognition tasks. 現在、Person re-ID技術の大部分は畳み込みニューラルネットワーク(CNN)に基づいているが、視覚変換器はさまざまなオブジェクト認識タスクのために純粋なCNNを置き換え始めている。 0.77
The primary output of a vision transformer is a global classification token, but vision transformers also yield local tokens which contain additional information about local regions of the image. 視覚変換器の一次出力はグローバルな分類トークンであるが、視覚変換器は画像の局所領域に関する追加情報を含む局所トークンも生成する。 0.78
Techniques to make use of these local tokens to improve classification accuracy are an active area of research. これらの局所トークンを用いて分類精度を向上させる技術は研究の活発な領域である。 0.76
We propose a novel Locally Aware Transformer (LA-Transformer) that employs a Parts-based Convolution Baseline (PCB)-inspired strategy for aggregating globally enhanced local classification tokens into an ensemble of N classifiers, where N is the number of patches. そこで我々は,局所的に拡張された局所分類トークンをN分類器のアンサンブルに集約し,Nをパッチ数とする,Partsベースの畳み込みベースライン(PCB)に着想を得た新しい局所認識変換器(LA-Transformer)を提案する。 0.69
An additional novelty is that we incorporate blockwise fine-tuning which further improves re-ID accuracy. さらに、ブロックワイズ細調整を取り入れることで、re-ID精度がさらに向上する点も新規である。 0.51
LA-Transformer with blockwise fine-tuning achieves rank-1 accuracy of 98.27% with standard deviation of 0.13 on the Market-1501 and 98.7% with standard deviation of 0.2 on the CUHK03 dataset respectively, outperforming all other state-of-the-art published methods at the time of writing. ブロックワイズ微調整のla変換器は、マーケット-1501で標準偏差0.13、cuhk03データセットで標準偏差0.2の98.7%でランク1の精度を98.27%達成し、執筆時点での他の最先端の公開手法を上回っている。 0.59
√ 1 Introduction In recent years, Person Re-Identification(re-ID) has gained a lot of attention due to its foundational role in computer vision based video surveillance applications. √ 1 はじめに 近年,コンピュータビジョンに基づく映像監視アプリケーションにおける基礎的役割から,人物認識(re-ID)が注目されている。 0.76
Person re-ID is predominantly considered as a feature embedding problem. person re-idは、主に機能埋め込み問題と見なされる。 0.66
Given a query image and a large set of gallery images, person re-ID generates the feature embedding of each image and then ranks the similarity between query and gallery image vectors. クエリ画像とギャラリー画像の大きなセットが与えられた後、人物のre-IDは各画像の特徴埋め込みを生成し、クエリとギャラリーイメージベクトルの類似性をランク付けする。 0.76
This can be used to re-identify the person in photographs obtained by nearby surveillance cameras. これは、近くの監視カメラが入手した写真の人物を再識別するために使用できる。
訳抜け防止モード: これは使えます 近くの監視カメラで撮影した写真で人物を識別する。
0.77
Recently, Vision Transformer (ViT) as introduced by Dosovitskiy et al [2020] is gaining substantial traction for image recognition problems. 近年,dosovitskiy et al [2020] が導入した視覚トランスフォーマー (vit) が画像認識問題で大きな注目を集めている。 0.79
While some methods for image classification [Dosovitskiy et al , 2020, Touvron et al , 2020], and for image retrieval [El-Nouby et al , 2021] are focused only on the classification token, some approaches utilize the fact that local tokens, which are also outputs of the transformer encoder, can be used to improve performance of many computer vision applications including image segmentation [Wu et al , 2020, Wang et al , 2021, Chen et al , 2021], object detection [Beal et al , 2020, Wang et al , 2021] and even person re-ID [He et al , 2021]. While some methods for image classification [Dosovitskiy et al , 2020, Touvron et al , 2020], and for image retrieval [El-Nouby et al , 2021] are focused only on the classification token, some approaches utilize the fact that local tokens, which are also outputs of the transformer encoder, can be used to improve performance of many computer vision applications including image segmentation [Wu et al , 2020, Wang et al , 2021, Chen et al , 2021], object detection [Beal et al , 2020, Wang et al , 2021] and even person re-ID [He et al , 2021]. 0.89
Nevertheless, at present, approaches to make use of local and global tokens are an active area of research. それにもかかわらず、現在、局所的およびグローバルなトークンを利用するアプローチは研究の活発な領域である。 0.69
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
In the words of Beal et al [2020], "The remaining tokens in the sequence are used only as features for the final class token to attend to. beal et al [2020]の言葉で「シーケンス内の残りのトークンは、最後のクラストークンが出席する特徴としてのみ使用される。 0.70
However, these unused outputs correspond to the input patches, and in theory, could encode local information useful for performing object detection".Beal et al [2020] observed that the local tokens, although theoretically influenced by global information, also have substantial correspondence to the original input patches. しかし、これらの未使用の出力は入力パッチに対応しており、理論的には、オブジェクト検出に有用なローカル情報をエンコードすることができる。
訳抜け防止モード: しかし、これらの未使用の出力は入力パッチに対応している。 そして理論的には、オブジェクト検出を行うのに役立つローカル情報をエンコードできる。 Beal et al [ 2020 ] は局所トークンを観測した。 理論上はグローバル情報の影響を受けているが、元の入力パッチと相当な対応がある。
0.57
One might therefore consider the possibility of using these local tokens as an enhanced feature representation of the original image patches to more strongly couple vision transformer encoders to fully connected (FC) classification techniques. したがって、これらの局所トークンを元のイメージパッチの強化された特徴表現として使う可能性を考慮し、より強結合の視覚トランスフォーマーエンコーダを完全連結(fc)分類技術に組み込むことができる。 0.67
This coupling of local patches with FC classification techniques is the primary intuition behind the LA-Transformer architectural design. この局所パッチとfc分類技術との結合はla変換器アーキテクチャ設計の背後にある主要な直観である。 0.66
Part-based Convolutional Baseline (PCB) [Sun et al , 2018] is a strong convolutional baseline technique for person re-ID and has inspired many state-of-the-art models [Yao et al , 2018, Guo et al , 2019, Zheng et al , 2019]. 部分ベースの畳み込みベースライン(pcb) [sun et al , 2018] は、person re-idの強い畳み込みベースライン技術であり、多くの最先端モデル(yao et al , 2018, guo et al , 2019, zheng et al , 2019)に影響を与えている。 0.72
PCB partitions the feature vector received from the backbone network into six vertical regions and constructs an ensemble of regional classifiers with a voting strategy to determine the predicted class label. pcbはバックボーンネットワークから受信した特徴ベクトルを6つの垂直領域に分割し、予測されたクラスラベルを決定する投票戦略を持つ地域分類器のアンサンブルを構築する。 0.78
A limitation of PCB is that each regional classifier ignores the global information which is also very important for recognition and identification. PCBの制限は、各地域分類器が認識と識別に非常に重要なグローバル情報を無視することである。 0.79
Nevertheless, PCB has achieved much success despite this limitation, and as such the design of LA-Transformer uses a PCB-like strategy to combine globally enhanced local tokens. しかし、この制限にもかかわらずPCBは大きな成功を収め、LA-Transformerの設計では、グローバルに拡張されたローカルトークンを組み合わせるためにPCBライクな戦略を採用している。 0.60
Our work also improves on the recent results of He et al [2021], who was the first to employ Vision Transformers to person re-ID and achieved results comparable to the current state-of-the-art CNN based models. われわれの研究はまた、人物認証に視覚トランスフォーマーを最初に採用し、現在のcnnベースのモデルに匹敵する結果を達成したhe et al [2021]の最近の結果も改善している。 0.75
Our approach extends He et al [2021] in several ways but primarily because we aggregate the globally enhanced local tokens using a PCB-like strategy that takes advantage of the spatial locality of these tokens. 我々のアプローチはHe et al [2021] をいくつかの方法で拡張するが、主な理由は、これらのトークンの空間的局所性を利用するPCBのような戦略を用いて、グローバルに拡張されたローカルトークンを集約するためである。 0.58
Although He et al [2021] makes use of fine-grained local tokens, it does so with a ShuffleNet [Zhang et al , 2017] like Jigsaw shuffling step which does not take advantage of the 2D spatial locality information inherent in the ordering of the local tokens. He et al [2021] はきめ細かいローカルトークンを使用しているが、 Jigsaw シャッフルステップのような ShuffleNet [Zhang et al , 2017] では、ローカルトークンの順序付けに固有の2次元の空間的局所性情報を利用できない。 0.67
LA-Transformer overcomes this limitation by using a PCB-like strategy to combine the globally enhanced local tokens while first preserving their ordering in correspondence with the image dimension. LA-Transformerはこの制限を克服し、PCBライクな戦略を用いてグローバルに拡張されたローカルトークンを結合し、まず画像次元に対応する順序を保つ。 0.64
An additional novelty of our approach is the use of blockwise fine-tuning which we find is able to further improve the classification accuracy of LA-Transformer for person re-ID. また,la変換器の識別精度をさらに向上できるブロック単位での微調整を行う手法も新たに導入した。
訳抜け防止モード: 我々のアプローチの新たな特徴は、ブロックワイドファインを使うことである。 LA-Transformer for person re- IDの分類精度をさらに向上させることができる。
0.70
Blockwise fine-tuning is viable as a form of regularization when training models with a large number of parameters over relatively small in-domain datasets. ブロックワイズ微調整は、比較的小さなドメイン内のデータセットに対して多数のパラメータを持つモデルをトレーニングする場合、正規化の一形態として実現可能である。
訳抜け防止モード: ブロックワイズファイン - チューニングは正規化の形で実行可能である 比較的小さなドメインデータセットに対して、多数のパラメータを持つトレーニングモデル。
0.71
Howard and Ruder [2018] advocate for blockwise fine-tuning or gradual unfreezing particularly when training language models due to a large number of fully connected layers. howard氏とruder氏[2018]は、多くの完全接続層によって言語モデルをトレーニングする場合、特にブロックワイアリングの微調整や段階的な凍結を提唱しています。
訳抜け防止モード: Howard and Ruder [2018 ] advocate for blockwise fine - tune 特に 緩やかな凍結や 多数の完全に接続されたレイヤによって 言語モデルを訓練します
0.73
As vision transformers also have high connectivity, we find that this approach is able to further improve the classification accuracy for LA-Transformer. 視覚トランスフォーマは高い接続性を持つため、このアプローチはla変換器の分類精度をさらに向上させることができる。 0.78
This paper is organized as follows: Firstly, we discuss related work involving Transformer architectures and other related methodologies in person re-ID. 本稿では、まず、トランスフォーマーアーキテクチャやその他の関連する手法に関する関連する研究を、人物のre-IDで論じる。
訳抜け防止モード: 本論文は以下のとおり整理される。 まず,トランスフォーマーアーキテクチャとそれに関連する手法をin person re- IDで論じる。
0.70
Secondly, we describe the architecture of LA-Transformer, including the novel locally aware network and blockwise fine-tuning techniques. 次に,LA-Transformerのアーキテクチャについて述べる。 0.26
Finally, we present quantitative results of the person re-ID including mAP and rank-1 analysis on the market-1501 and CUHK03 datasets. 最後に、市場1501およびCUHK03データセットにおけるmAPとランク1分析を含む人物再IDの定量的結果を示す。 0.66
2 Related Work For many years CNN based models have dominated image recognition tasks including person re-ID. 2 関連作業 CNNベースのモデルは長い間、人物のリIDを含む画像認識タスクを支配してきた。 0.67
A vast body of research has been performed to determine the best strategy to extract features using CNNs to address issues like appearance ambiguity, background perturbance, partial occlusion, body misalignment, viewpoint changes, and pose variations, etc. cnnを使って外観の曖昧さ、背景の摂動、部分的咬合、身体の誤視、視点の変化、ポーズの変化といった問題に対処するための最良の戦略を決定するために、膨大な研究が行われている。 0.55
Sarfraz et al [2018] proposed a PoseSensitive Embedding to incorporate information associated with poses of a person in the model, Yu et al [2020] used a Graph Convolution Network [Kipf and Welling, 2017] to generate a conditional feature vector based on the local correlation between image pairs, Herzog et al [2021] used global channel-based and part-based features, Zhang et al [2018] used global pooling to extract global features and horizontal pooling followed by 1 × 1 CNN for local features. Sarfraz et al [2018] proposed a PoseSensitive Embedding to incorporate information associated with poses of a person in the model, Yu et al [2020] used a Graph Convolution Network [Kipf and Welling, 2017] to generate a conditional feature vector based on the local correlation between image pairs, Herzog et al [2021] used global channel-based and part-based features, Zhang et al [2018] used global pooling to extract global features and horizontal pooling followed by 1 × 1 CNN for local features. 0.89
CNN based methods have led to many advances in recent years and are continuing to be developed for person re-ID. CNNベースの手法は近年多くの進歩をもたらしており、人身認証のための開発が続けられている。 0.70
Another branch of techniques for person re-ID focuses on the development of highly engineered network designs that incorporate additional domain knowledge to improve re-ID performance. パーソナライズre-idの別の分野は、再id性能を改善するために追加のドメイン知識を含む高度に設計されたネットワーク設計の開発に焦点を当てている。 0.59
Ding et al [2020] used a part-aware approach for which the model performs the main task as well as auxiliary tasks for each body part. ding et al [2020] では、モデルがメインタスクと各ボディパートの補助タスクを実行する部分認識アプローチを採用しています。 0.72
Zhou and Shao [2018] and Zhu et al [2019] use viewing angles as additional features. Zhou and Shao [2018] と Zhu et al [2019] は、視野角を追加機能として使用しています。 0.73
Yao et al [2017] introduced the idea of calculating part loss and Sun et al [2018] Yao et al [2017] は部分損失を計算するアイデアを導入し、Sun et al [2018] 0.87
2 2 0.85
英語(論文から抽出)日本語訳スコア
(Part-based Convolutional Backbone a.k.a. (パートベースConvolutional Backbone a.k.a) 0.59
PCB) improved on it. PCB)が改善した。 0.86
Even current top-performing models like Yao et al [2018] used PCB along with domain-specific Spatio-temporal distribution information to achieve good results on the Market-1501 dataset. Yao氏らの現在のトップパフォーマンスモデルでさえ、PCBとドメイン固有の時空間分布情報を使って、Market-1501データセットで良い結果を得た。 0.68
In our work we incorporate PCB-like local classifiers with Vision Transformers, and furthermore we find that our model performs better if we pass global information along with local features. 私たちの研究では、pcbライクなローカル分類器と視覚トランスフォーマーを組み込んでおり、さらに、グローバル情報をローカル機能とともに渡すと、私たちのモデルがより良く機能することがわかった。 0.59
LA-Transformer achieves results with comparable and slightly higher rank-1 accuracy than the reported results of Yao et al [2018] over Market-1501 and does so without the use of additional Spatio-temporal information. LA-Transformer は Market-1501 上での Yao et al [2018] の報告結果と同等かつわずかに高いランク-1 の精度で結果を得る。 0.67
Interest in Vision Transformers grew initially from attention mechanisms which were first employed for language translation problems in NLP [Bahdanau et al , 2016], Attention mechanisms have been employed to great effect in image recognition. NLP(Bahdanau et al , 2016)の言語翻訳問題に最初に採用された注意機構から、視覚変換器への関心が高まった。
訳抜け防止モード: 視覚変換器の関心は、最初に注目メカニズムから成長した NLP(Bahdanau et al, 2016)で言語翻訳問題に最初に採用された。 注意機構は画像認識に大きな影響を与える。
0.79
Wang et al [2018a] introduced parameter-free spatial attention to integrating spatial relations to Global Average Pooling (GAP). Wangらは,Global Average Pooling (GAP)と空間関係を統合するためにパラメータフリー空間注意を導入した。 0.83
Xie et al [2020] used Spatial Attention Module (SAM), and Channel Attention Module (CAM) to deliver prominent spatial and channel information. Xie et al [2020] は空間アテンションモジュール (SAM) とチャネルアテンションモジュール (CAM) を使用して、空間情報やチャネル情報を提供する。 0.81
Chen et al [2019] propose Position Attention Module (PAM) for semantically related pixels in the spatial domain along with CAM. Chenらは、CAMとともに空間領域における意味的関連画素に対する位置注意モジュール(PAM)を提案する。 0.76
Attention mechanisms continue to be an active area of research for many problems related to object detection and recognition. 注意機構は、オブジェクトの検出と認識に関する多くの問題に対して、引き続き研究の活発な領域である。 0.73
Transformers were first introduced in NLP problems by Vaswani et al [2020], and now Transformers are contributing to many new developments in machine learning. TransformersはVaswaniらによって最初にNLP問題に導入され、現在、Transformersは機械学習における多くの新しい発展に貢献している。 0.75
Dosovitskiy et al [2020] introduced transformers to images by treating a 16x16 patch as a word and treating image classification as analogous to text classification. Dosovitskiy et al [2020]は16x16パッチを単語として扱い、画像分類をテキスト分類に類似したものとして扱うことにより、画像にトランスフォーマーを導入した。
訳抜け防止モード: dosovitskiyら[2020年]が画像にトランスフォーマーを導入 16x16パッチを単語として処理し、画像分類をテキスト分類に類似させる。
0.79
This approach showed promising results on ImageNet and it was soon adopted in many image classification problems [Parmar et al , 2018, Wang et al , 2018b]. このアプローチはImageNet上で有望な結果を示し、すぐに多くの画像分類問題(Parmar et al , 2018, Wang et al , 2018b]に採用された。 0.81
Object detection is another highly related problem for which vision transformers have been recently applied [Carion et al , 2020, Beal et al , 2020]. 物体検出は、視覚トランスフォーマーが最近適用された(carion et al , 2020, beal et al , 2020)もう1つの非常に関連性の高い問題である。
訳抜け防止モード: オブジェクト検出は、また別の非常に関連性の高い問題である ビジョントランスが最近応用された[Carion et al, 2020, Beal et al, 2020]。
0.76
Beal et al [2020] described a correspondence between local tokens and input patches and combined local tokens to create spatial feature maps. Beal et al [2020] は局所トークンと入力パッチの対応を記述し、局所トークンを組み合わせて空間的特徴マップを作成する。 0.70
At present, this observation of the correspondence between local tokens and input patches has yet to be applied to a wide variety of computer vision problems, nor has it been previously explored in the context of person re-ID. 現時点では、ローカルトークンと入力パッチの対応に関するこの観察は、様々なコンピュータビジョンの問題にはまだ適用されていない。
訳抜け防止モード: 現在、局所トークンと入力パッチの対応に関するこの観察は、まだ行われていない。 様々なコンピュータビジョン問題に適用できます また、in person re - ID のコンテキストで以前調査されたこともない。
0.58
One exception is in the area of image segmentation, for which recent works are beginning to take advantage of the 2D ordering of the local tokens in order to produce more accurate predicted masks [Wu et al , 2020, Wang et al , 2021, Chen et al , 2021]. 画像セグメンテーションの分野における例外は、より正確な予測マスク(Wu et al , 2020, Wang et al , 2021, Chen et al , 2021)を生成するために、局所トークンの2次元順序付けを最近の研究で活用し始めていることである。 0.80
Our approach builds upon the recent work of He et al [2021] who was the first to apply vision transformers to object and person re-ID. 私たちのアプローチは、オブジェクトと人の再IDに視覚トランスフォーマーを最初に適用したHe et al [2021]の最近の研究に基づいています。 0.69
Although the approach of He et al [2021] makes use of global and local tokens, He et al [2021] combines the local tokens using a jigsaw classification branch which shuffles the ordering of the local features. He et al [2021] のアプローチはグローバルトークンとローカルトークンを併用するが,He et al [2021] は局所的特徴の順序付けをシャッフルするジグソー分類枝を用いて局所トークンを結合する。 0.79
Shuffling the order of local features does not take advantage of the observation of Beal et al [2020] in that local features correspond strongly with input patches and therefore have a natural ordering in the form of a 2D image grid. 局所的な特徴の順序をシャッフルすることは、局所的な特徴が入力パッチと強く対応し、2次元画像グリッドの形で自然な順序付けを持つという、Beal et al [2020] の観測を生かしていない。
訳抜け防止モード: ローカルな特徴の順序をシャッフルする 局所的な特徴が入力パッチと強く一致するというBeal et al [ 2020 ]の観察を活用できない したがって、2D画像グリッドの形で自然な順序付けを行う。
0.78
Conversely, LA-Transformer takes advantage of the spatial locality of these local features by combining globally enhanced local tokens with a PCB-like strategy [Sun et al , 2018]. 逆にla-transformerは、グローバルに拡張されたローカルトークンとpcbライクな戦略(sun et al , 2018)を組み合わせることで、これらのローカルな特徴の空間的局所性を利用する。
訳抜け防止モード: 逆に LA - Transformer はこれらの局所的特徴の空間的局所性を利用する グローバルに拡張されたローカルトークンとPCB – 戦略 [Sun et al, 2018 ] を組み合わせる。
0.75
Furthermore, LA-Transformer incorporates the blockwise fine-tuning strategy as described by Howard and Ruder [2018] as a form of regularization for high-connectivity pre-trained language models. さらに、LA-Transformerは、Howard and Ruder [2018] によって記述されたブロックワイズ微調整戦略を、高接続性事前訓練言語モデルの正規化の形式として取り入れている。 0.56
As such LA-Transformer builds upon recent advances in the application of vision transformers in tandem with novel training techniques to achieve state-of-the-art accuracy in person re-ID. このようにla変換器は、個人再識別における最先端精度を達成するための新しい訓練技術と相まって、視覚トランスフォーマーの応用における最近の進歩に基づいている。
訳抜け防止モード: そのようなLA-Transformerは、新しいトレーニング技術を用いたビジョントランスフォーマーのタンデムへの応用における最近の進歩に基づいている。 to achieve state - of -the -art accuracy in person re - ID
0.59
3 Methodology LA-Transformer combines vision transformers with an ensemble of FC classifiers that take advantage of the 2D spatial locality of the globally enhanced local tokens. 3 方法論 LA-Transformerは、グローバルに拡張されたローカルトークンの2次元空間的局所性を生かした、視覚変換器とFC分類器のアンサンブルを組み合わせる。 0.71
Section 3.1 describes the overall architecture including the backbone vision transformer (section 3.1.1), as well as the PCB inspired classifier network ensemble (section 3.1.2). 第3.1節はバックボーンビジョントランスフォーマー(セクション3.1.1)やpcbインスパイアされた分類器ネットワークアンサンブル(セクション3.1.2)を含む全体的なアーキテクチャを記述している。 0.61
The blockwise fine-tuning strategy is described in section 3.2. ブロックワイズ微調整戦略は、セクション3.2に記載されている。 0.52
As such, these sections describe the major elements of the LA-Transformer methodology. このように、これらの節はLA-Transformer法の主要な要素を記述している。 0.54
3.1 Locally Aware Transformer 3.1 ローカル対応変圧器 0.59
LA-Transformer (figure 3) consists of two main parts: a backbone network and a locally aware network. LA-Transformer(図3)は、バックボーンネットワークと局所的に認識されるネットワークの2つの主要な部分から構成される。 0.63
Both components are interconnected and trained as a single neural network model. 両方のコンポーネントは相互接続され、単一のニューラルネットワークモデルとしてトレーニングされる。 0.62
The backbone network is the ViT architecture as proposed by Dosovitskiy et al [2020]. バックボーンネットワークは、Dosovitskiyらによって提唱されたViTアーキテクチャである。 0.51
ViT generates tokens F = f0, f1, .., fN . ViT はトークン F = f0, f1, ., fN を生成する。 0.81
The token f0, also known as the global classification token and we refer to this token as the global token G. Supplementary outputs f1..f196 are referred to as local tokens which we denote to collectively as Q. Globally Enhanced Local Tokens (GELT) are obtained by 大域的分類トークンとしても知られており、このトークンをグローバルトークンGと呼びます。 補助的な出力f1.f196は、私たちが集合的に Q と表現するローカルトークンと呼ばれます。グローバル強化ローカルトークン(GELT)は、グローバル化ローカルトークン(GELT)によって取得されます。
訳抜け防止モード: グローバル分類トークンとしても知られるトークンf0 補助出力 f1 . f196 はローカルトークンと呼ばれ、これはローカルトークンと呼ばれます。 GELT (Globally Enhanced Local Tokens) は GELT (Globally Enhanced Local Tokens) の略で
0.75
3 3 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Architecture of LA-Transformer. 図1: LA変換器のアーキテクチャ。 0.75
Part (a) - shows the backbone architecture. Part (a) - バックボーンアーキテクチャを示す。 0.69
The input image is converted into patch embedding using 2D convolution. 入力画像を2D畳み込みを用いてパッチ埋め込みに変換する。 0.72
The class embedding (cls embedding) is prepended to the patch embedding. クラス埋め込み(cls埋め込み)は、パッチ埋め込みに先立って行われる。 0.61
Then the position embeddings are added and this resulting sequence is fed to the transformer encoder. そして、位置埋め込みを加算し、この結果のシーケンスを変換器エンコーダに供給する。 0.74
F = f0, f1, ..., fN is the output of the transformer encoder where f0 is the global vector G and remaining tokens from f1 to fN are local tokens Q. G and Q are then combined using weighted averaging and are called Globally Enhanced Local Tokens (GELT). F = f0, f1, ..., fN は変換器エンコーダの出力であり、f0 は大域ベクトル G であり、f1 から fN までのトークンは局所トークン Q である。
訳抜け防止モード: F = f0, f1, ..., fN は変換器エンコーダの出力であり、f0 は大域ベクトル G である。 f1 から fN への残りトークンは局所トークン Q である。 そしてQは平均値を使って結合され、Globally Enhanced Local Tokens (GELT )と呼ばれる。
0.84
GELT are then arranged into a 2D spatial grid. GELTは2次元空間グリッドに配置される。 0.72
Part (b) - shows the Locally Aware Network. Part (b) - Locally Aware Networkを示す。 0.74
L is the row-wise average of GELTs and is performed using average pooling. LはGELTの行平均であり、平均プールを用いて実行される。 0.72
L is then fed to the locally aware classification ensemble. その後、Lは局所的に認識される分類アンサンブルに供給される。 0.54
Part (c) and (d) describes the architecture of transformer encoder and FC classifier respectively. パート (c) と (d) はそれぞれ変換器エンコーダとFC分類器のアーキテクチャを記述する。 0.81
combining global tokens and local tokens (G and Q) using weighted averaging and are arranged into a 14 × 14 2D spatial grid as seen in Figure 3(a). グローバルトークンと局所トークン(GとQ)を重み付き平均値を使って組み合わせ、図3(a)に示すように14×142次元の空間格子に配置する。 0.76
The row-wise averaged GELTs are then fed to the locally aware classification ensemble as seen in Figure 3(b) to classify during the training process and to generate feature embedding (by concatenating L) during the testing process. 行平均GELTは、図3(b)に示すように、局所的に認識された分類アンサンブルに供給され、トレーニングプロセス中に分類し、テストプロセス中に(Lを連結して)特徴埋め込みを生成する。 0.74
These steps are described in greater detail in the following sections 3.1.1 and 3.1.2 これらの手順は以下の3.1.1と3.1.2に詳しく記述されている。 0.55
3.1.1 LA-Transformer Backbone 3.1.1 laトランスフォーマーバックボーン 0.41
The backbone network of LA-Transformer is the ViT vision transformer [Dosovitskiy et al , 2020]. LA-Transformer のバックボーンネットワークは ViT Vision Transformer [Dosovitskiy et al , 2020] である。 0.85
ViT requires extensive training data on the order of 14M − 300M images to train effectively, but the Market1501 and CUHK-03 datasets are relatively small (Table 4.1) in comparison on the order of 10’s of thousands of images. ViTは、効果的にトレーニングするために14M − 300Mの画像の順序に関する広範なトレーニングデータを必要とするが、Market1501とCUHK-03データセットは10万の画像の順序と比較して比較的小さい(Table 4.1)。 0.74
As such we employed a pre-trained ViT model, and further made use of blockwise fine-tuning to improve accuracy as described in section 3.2 Embeddings The backbone ViT architecture takes images of size 224 × 224 as input, and as such the Market1501 and CUHK-03 images are re-sampled to this resolution during training. そのために、事前訓練されたvitモデルを採用し、さらに3.2に記述されているように、ブロックワイズ微調整を使用して精度を向上させ、バックボーンvitアーキテクチャを組み込むと、224 × 224の画像を入力とし、market1501 と cuhk-03 の画像をこの解像度に再サンプリングする。 0.61
First, the p|i = 1, .., N. Each patch is then linearly projected image is converted into N number of patches xi p)|i = 1, .., N) (eq. まず、p|i = 1, ., N. 各パッチは線型射影され、N個のパッチ xi p)|i = 1, .., N) (eq) に変換される。 0.78
2), which is obtained into D dimensions using the patch embedding function (E(xi using a convolution layer with a kernel size of 16× 16. 2) カーネルサイズ16×16の畳み込み層を用いてパッチ埋め込み関数(E(xi)を用いてD次元に取得した。 0.73
For non-overlapping patches, a stride equal to 重複しないパッチの場合、ストライドは等しい 0.48
4 4 0.85
英語(論文から抽出)日本語訳スコア
16 is used. D is the number of channels and is set to 768 which represents the size of the embedding. 16が使用される。 D はチャネルの数であり、埋め込みのサイズを表す 768 に設定されている。 0.80
The total number of patches N depends on kernel size, stride, padding, and size of the image. パッチNの総数は、イメージのカーネルサイズ、ストライド、パディング、サイズに依存する。 0.61
N can be easily calculated using the eq. n は eq を用いて容易に計算できる。 0.85
1. Assuming padding is 0, and H, W are height and width of an image, KH, KW are height and width of the kernel and S is kernel stride. 1. パディングが0と仮定すると、H,Wは画像の高さと幅、KH,KWはカーネルの高さと幅、Sはカーネルストライドである。 0.78
(cid:18) H − KH (出典:18)H-KH 0.79
S N = (cid:19) S N = (cid:19) 0.83
(cid:18) W − KW (cid:18)w − kw 0.77
+ 1 × (cid:19) + 1 × (cid:19) 0.83
S + 1 (1) Afterward, the learnable class embedding xclass is prepended with the patch embedding (E(xi p)) whose output state keeps the information of the entire image and serves as the global vector. S + 1 (1) その後、学習可能なクラス埋め込み xclass は、出力状態が画像全体の情報を保持し、大域ベクトルとして機能するパッチ埋め込み (E(xi p)) によってプリペイドされる。 0.83
The resulting vectors are then added with position embeddings P to preserve the positional information. そして、結果のベクトルに位置埋め込みPを加えて位置情報を保存する。 0.70
Subsequently, the final sequence of vectors z0 (eq. その後、ベクトル z0 (eq) の最終列となる。 0.75
2) is fed into the transformer encoder (figure3) to generate N + 1 feature vectors where N is the number of patches plus class embedding. 2) は変換器エンコーダ(図3)に入力され、N がパッチ数とクラス埋め込みであるような N + 1 個の特徴ベクトルを生成する。 0.83
z0 = [xclass; E(x1 z0 = [xclass; E(x1) 0.85
p); E(x2 p); ....; E(xN p); e(x2) p); ...; E(xN) 0.82
p )] + P (2) p ) + p (2) 0.76
Transformer Encoder The transformer encoder consist of total B = 12 blocks. Transformer Encoder 変換器エンコーダは合計 B = 12 ブロックで構成される。 0.89
Each block contains alternating MSA (Multiheaded Self-Attention) introduced by Vaswani et al [2020] and MLP blocks. それぞれのブロックには、Vaswani et al (2020) と MLP ブロックによって導入された交代型 MSA (Multiheaded Self-Attention) が含まれている。 0.57
The Layernorm (LN) is applied before MSA and MLP blocks and a residual connections is applied after each encoder block. レイヤノーム(LN)は、MSAおよびMLPブロックの前に適用され、各エンコーダブロックの後に残コネクションが適用される。 0.72
The output of transformer encoder F described in eq. eqで記述した変換器エンコーダFの出力。 0.81
5 passes through all the B blocks (eq. 5 はすべての b ブロック (eq) を通過する。 0.81
3 and 4 ). z(cid:48) b = zb−1 + M SA(LN (zb−1)) zb = z(cid:48) 3および4)。 z(cid:48) b = zb−1 + M SA(LN(zb−1)) zb = z(cid:48) 0.81
b + M LP (LN (z(cid:48) b)) F = LN (zB) b + M LP (LN (z(cid:48) b)) F = LN (zB) 0.93
(3) (4) (5) (3) (4) (5) 0.85
While the seminal work of Dosovitskiy et al [2020] only uses classification token z0 B for classification, LA-Transformer makes use of all of the features zB eq. Dosovitskiy et al [2020] のセミナルな仕事は分類のためにのみ分類トークン z0B を使用するが、LA-Transformer はすべての特徴 zB eq を利用する。 0.79
5. Though the class embedding can be removed from the backbone network, our experiments show promising results with class embedding serving as a global vector (Table 2). 5. クラス埋め込みはバックボーンネットワークから取り除くことができるが、我々の実験は、クラス埋め込みがグローバルベクターとして機能する有望な結果を示す(表2)。 0.81
From our experiments, it is clear that ViT as a backbone network is a good choice for person re-ID based problems. 実験結果から, バックボーンネットワークとしてのViTは, 人による再IDベースの問題に最適であることが明らかとなった。 0.65
Further, we believe that any transformer based model like Diet by Touvron et al [2020], or DeepViT by Zhou et al [2021] can be used as a backbone network. さらに,Touvron et al [2020] によるダイエットや Zhou et al [2021] によるDeepViT のようなトランスフォーマーモデルもバックボーンネットワークとして利用できると考えている。 0.75
3.1.2 Locally Aware Network 3.1.2 ローカルアウェアネットワーク 0.61
The Locally Aware Network is a classifier ensemble similar to the PCB technique of Sun et al [2018] but with some differences. Locally Aware Network は Sun et al [2018] の PCB 技術に似た分類器アンサンブルであるが,いくつかの違いがある。 0.82
Firstly, in Sun et al [2018] the input features are purely local, whereas in LA-Transformer, we find that the inclusion of global vectors along with local vectors via weighted averaging can increase the network accuracy. 第一に、Sunなどでは入力機能は純粋に局所的であるが、LA-Transformerでは、重み付け平均化による局所ベクトルとともにグローバルベクトルが包含されることでネットワークの精度が向上する。 0.77
Secondly, although in Sun et al [2018] the image is divided into six input regions, we divide the 2D spatial grid of tokens into N = 14 regions as seen in Figure 3. 第二に、Sun et al [2018]では、画像は6つの入力領域に分けられるが、図3に示すように、トークンの2次元空間格子をN = 14領域に分割する。 0.75
Finally, while PCB uses a convolutional backbone, LA-Transformer uses the ViT backbone. 最後に、PCBは畳み込みバックボーンを使用し、LA-TransformerはViTバックボーンを使用する。 0.67
In Figure 3, the transformer encoder outputs N + 1 feature vectors. 図3では、トランスコーダはn + 1の特徴ベクトルを出力する。 0.76
The global tokens G = f0 and local tokens Q = [f1, f2, f3, ..., fN ] are obtained for which N is number of patches. グローバルトークンG = f0 とローカルトークンQ = [f1, f2, f3, ..., fN] は、N がパッチ数である。 0.74
NR is defined √ as the total number of patches per row and NC as the total number of patches per column. NRは、行当たりのパッチの総数として、NCは列当たりのパッチの総数として定義される。 0.69
In our case, NR = NC = N. Then we define L as the averaged GELT obtained after average pooling of Q and G as follows, この場合、nr = nc = n とすると、l を q と g の平均プーリングの後に得られる平均ゲルとして定義する。 0.67
√ Li = 1 NR (i+1)∗NR(cid:88) √ 李= 1nr (i+1)∗NR(cid:88) 0.72
j=i∗NR+1 (Qj + λG) j=i∗NR+1 (Qj + λG) 0.64
(1 + λ) i = 0...NC − 1 (1 + λ) i = 0...NC − 1 0.90
(6) In eq. 6 all the patches in a row are averaged to create one local vector per row . (6) eq。 6 行のすべてのパッチは平均して,行毎に1つのローカルベクトルを生成する。 0.68
The total number of FC classifiers is equal to NC. FC分類器の総数はNCに等しい。 0.63
Each FC classifier contains two fully connected layers with RELU and Batch Normalization. 各FC分類器は、RELUとバッチ正規化の2つの完全連結層を含む。 0.58
We define y as the output of LA-Transformer as follows, 我々は y を LA-Transformer の出力として定義する。 0.74
5 5 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Datasets Overview 表1:データセットの概要 0.78
Dataset Market-1501 CUHK-03 データセット 市場1501 CUHK-03 0.58
Classes 751 1367 Train Query Gallery 19744 12192 13131 965 751-1367級 Train Query Gallery 19744 12192 13131 965 0.72
3368 965 yi = F Ci(Li) 3368 965 yi = F Ci(Li) 0.85
i = 1...NC i = 1...NC 0.88
(7) The outputs y are passed through softmax and the softmax scores are summed together. (7) 出力yはソフトマックスを通過し、ソフトマックススコアを合計する。 0.73
The argument of the maximum score represents the ID of the person as follows. 最大スコアの引数は、次の人物のIDを表す。 0.57
NC(cid:88) score = NC(第88回) スコア = 0.67
sof tmax(yi) sof tmax(yi) 0.85
i=0 prediction = argmax(score) i=0 予測 = argmax(score) 0.68
(8) (9) 3.2 Fine-tuning Strategies (8) (9) 3.2 微調整戦略 0.76
According to the recent studies of Touvron et al [2020] and Dosovitskiy et al [2020], training a vision transformer from scratch requires about 14M-300M images. Touvron et al [2020] と Dosovitskiy et al [2020] の最近の研究によると、視覚変換器をゼロから訓練するには約14M-300M画像が必要である。 0.70
Person re-ID datasets are known for their small size and training a transformer on these datasets can quickly lead to overfitting. person re-idデータセットは小さなサイズで知られており、これらのデータセットでトランスフォーマーをトレーニングすると、すぐにオーバーフィットする可能性がある。
訳抜け防止モード: Person re - IDデータセットはその小さなサイズで知られている これらのデータセットでトランスフォーマーを訓練すると、すぐに過度に適合します。
0.56
As such, ViT was pre-trained on ImageNet (Ridnik et al [2021]), and then fine-tuned on person re-ID datasets. そのため、ViTはImageNet(Ridnik et al [2021])で事前トレーニングされ、それから人物のre-IDデータセットで微調整された。 0.70
Blockwise fine-tuning was applied which is highly similar to the gradual unfreezing method described by Howard and Ruder [2018] for the purposes of training large language models in the event of limited training data from a target domain. ブロックワイズファインチューニングは、ターゲットドメインからの限られたトレーニングデータの場合、大きな言語モデルをトレーニングする目的で、Howard and Ruder [2018] が記述した段階的凍結法と非常によく似ている。 0.73
Blockwise Fine-tuning In blockwise fine-tuning, all transformer blocks are frozen in the start except for the bottleneck model. ブロックワイズファインチューニング ブロックワイズファインチューニングでは、ボトルネックモデルを除いて、すべてのトランスフォーマーブロックは開始時に凍結される。 0.71
After every t epochs (where t is a hyper-parameter), one additional transformer encoder block is unfrozen and the learning rate is reduced as described by Alg3.2. 各tエポック(tはハイパーパラメータ)の後、さらに1つのトランスフォーマーエンコーダブロックが凍結されず、Alg3.2で記述されたように学習率が低下する。 0.61
Blockwise fine-tuning helps in mitigating the risk of catastrophic forgetting of the pre-trained weights [Howard and Ruder, 2018]. ブロックワイドの微調整は、事前訓練された重量の破滅的な忘れ込みのリスクを軽減するのに役立つ[Howard and Ruder, 2018]。
訳抜け防止モード: Blockwise fine - チューニングが役に立ちます 事前訓練された重量の破滅的な忘れ込みのリスクを軽減する[Howard and Ruder, 2018].
0.62
The learning rate decay helps in reducing the gradient flow in the subsequent layers hence prevent abrupt weight updates. 学習速度の減衰は、次の層での勾配流の減少に役立つため、急激な重量更新を防ぐ。 0.67
Algorithm 1 Blockwise Fine-tuning 1: Freeze all the transformer blocks B 2: Initialize parameters: t = 2, b = 12, lr = 3e − 4, lr − decay = 0.85 3: while 0 <= i < epochs do 4: 5: 6: 7: アルゴリズム1 ブロック毎の微調整 1: すべてのトランスフォーマーブロックを凍結 b2: 初期化パラメータ: t = 2, b = 12, lr = 3e − 4, lr − decay = 0.853: while 0 <= i < epochs do 4: 5: 6: 7: 0.87
unf reeze B[b] b ← b − 1 lr ← lr ∗ lr_decay unf reeze B[b] b , b − 1 lr , lr ∗ lr_decay 0.82
if i%t == 0 and b > 0 then i%t == 0 かつ b > 0 ならば 0.87
(cid:46) ViT has 12 blocks (cid:46) Unfreeze the last block first (cid:46) Reduce block index counter (cid:46) Reduce lr rate (cid:46) ViT は 12 ブロック (cid:46) 最後のブロックをアンフリーズする (cid:46) ブロックインデックスカウンタ (cid:46) lr レートを減らす 0.78
4 Experiments 4.1 Datasets and Metrics 4つの実験 4.1 データセットとメトリクス 0.65
Datasets LA Transformer is trained over two benchmark datasets; Market-1501 and CUHK-03. Datasets LA Transformerは、2つのベンチマークデータセット、Market-1501とCUHK-03でトレーニングされている。 0.56
Table 4.1 gives the overview of datasets used to train the model. 表4.1は、モデルのトレーニングに使用されるデータセットの概要を示しています。 0.59
The Market-1501 dataset [Zheng et al , 2015] contains total 1501 classes/identities captured by six different cameras. Market-1501データセット[Zheng et al , 2015]には、6つの異なるカメラでキャプチャされた合計1501のクラス/IDが含まれている。 0.53
Out of 1501 classes, the train set contains 750 classes, and the test set consists of 751 classes. 1501種目のうち750種目が編成され、テストセットは751種目で構成されている。
訳抜け防止モード: 1501種目のうち750種目が編成されている。 テストセットは751のクラスで構成されています
0.78
A total of 12,192 images are present in the train set. 列車には合計12,192枚の画像が展示されている。 0.61
The test set is divided into a query set of 3,368 images and a gallery set of 19744 images. テストセットは3,368イメージのクエリセットと19744イメージのギャラリーセットに分けられる。 0.74
CUHK-03 dataset [Li et al , 2014] contains a total of 1,367 classes captured by six cameras. CUHK-03データセット [Li et al , 2014] には、6台のカメラでキャプチャされた合計1,367のクラスが含まれている。 0.55
There are 13,131 images in the train set and 1,930 images in the test set (965 in query and 965 in the gallery set). 列車には13,131枚の画像とテストセットに1,930枚の画像がある(クエリで965枚、ギャラリーセットで965枚)。 0.66
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 2: Ablation result of the influence of global and local features on baseline ViT and LATransformer with and without blockwise fine-tuning over Market-1501 表2: Market-1501上でのブロックワイズ微調整による世界的・地域的特徴がベースラインViTおよびLATransformerに与える影響 0.80
# Model Classifiers Tokens Global 1 ViT Local 2 ViT Global+Local 3 ViT Global 4 LA 5 LA Local Global+ Local 6 LA # Model Classifiers tokens Global 1 ViT Local 2 ViT Global+Local 3 ViT Global 4 LA 5 LA Local Global+ Local 6 LA 0.96
1 1 1 14 14 14 1 1 1 14 14 14 0.85
Without BW-FT With BW-FT Rank-1 mAP Rank-1 mAP 90.5 96.2 89.55 95.8 87.8 95.45 86.5 95.1 90.30 96.6 90.1 96.3 92.68 97.74 92.5 96.9 96.1 91.1 97.23 91.93 94.46 98.27 93.3 97.55 BW-FTなし BW-FT Rank-1 mAP Rank-1 mAP Rank-1 90.5 96.2 89.55 95.8 87.8 95.45 86.5 95.1 90.30 96.6 90.1 96.3 92.68 97.74 92.5 96.9 96.1 91.1 97.23 91.93 94.46 98.27 93.3 97.55 0.42
Evaluation protocol By convention, re-ID is evaluated over two standard evaluation metrics; Cumulative Matching Characteristics (CMC) and Mean Average Precision (mAP). 評価プロトコルでは、re-IDはCMC(Cumulative Matching Characteristics)と平均精度(Mean Average Precision)の2つの標準評価指標で評価される。 0.84
We apply these metrics to assess the performance of the LA-Transformer and other experiments. これらの指標をla変換器や他の実験の性能評価に応用する。 0.71
4.2 Model Implementation Details 4.2 モデル実装の詳細 0.69
ViT was pre-trained on ImageNet-21K and used as a backbone network as well as a baseline model [Dosovitskiy et al , 2020, Ridnik et al , 2021]. ViTはImageNet-21Kで事前トレーニングされ、ベースラインモデル(Dosovitskiy et al , 2020, Ridnik et al , 2021]と同様にバックボーンネットワークとして使用された。 0.77
All the images are resized into 224 × 224 as this resolution is compatible with the backbone network. この解像度はバックボーンネットワークと互換性があるため、すべての画像は224 × 224にリサイズされる。 0.77
The model is trained over 30 epochs with a batch size of 32. モデルは30エポック以上で訓練され、バッチサイズは32である。 0.73
We used the Adam optimizer with an initial learning rate of 3e − 5, step decay of 0.8, t = 2 and λ = 0.8. 初期学習速度 3e − 5 のadamオプティマイザ 0.8, t = 2, λ = 0.8 を用いた。 0.72
For testing, we concatenated all of the averaged GELTs L to generate the feature embedding. テストでは,平均値のGELTを全て結合して特徴埋め込みを生成した。 0.67
To efficiently calculate the Euclidean norm between the query and gallery vectors, we use the FAISS library Johnson et al [2017]. クエリーベクトルとギャラリーベクトルの間のユークリッドノルムを効率的に計算するために、FAISSライブラリ Johnson et al [2017] を用いる。 0.75
All the models are trained and tested on a single GPU machine with an Nvidia RTX2080 Ti with 11 GB VRAM, and 64 GB RAM. すべてのモデルは、Nvidia RTX2080 Tiと11GBのVRAM、64GBのRAMを備えた単一のGPUマシンでトレーニングされ、テストされる。 0.83
Figure 2: Part(a)- compares the validation loss of LA-Transformer with and without Blockwise Fine-tuning (BWFT). 図2: Part(a)- LA変換器の検証損失とブロックワイド微調整(BWFT)の有無を比較する。 0.80
Part(b) - compares validation accuracy of LA-Transformer with and without BWFT. Part(b) - LA変換器の検証精度とBWFTの有無を比較する。 0.79
Both graphs show results using Market-1501. どちらのグラフもmarket-1501で結果を示している。 0.50
4.3 Ablation study of LA Transformer 4.3 LAトランスのアブレーション研究 0.70
The table 2 compares the performance of variations of LA-Transformer versus the same variations of baseline ViT using the Market-1501 dataset. 表2は、マーケット-1501データセットを用いて、LA-Transformerの変種とベースラインViTの変種を比較した。 0.73
All six experiments are performed with and without blockwise fine-tuning. 6つの実験は全てブロックワイズで実施される。 0.67
Experiment 1 is the baseline model that uses only the global token to generate feature embedding. Experiment 1はグローバルトークンのみを使用して機能埋め込みを生成するベースラインモデルである。 0.85
Experiment 2 uses only the local tokens of the transformer encoder and exhibits the lowest rank-1 accuracy (95.1) and mAP score (86.5) out of all of the variations of ViT. 実験2では、トランスバータエンコーダの局所トークンのみを使用し、ViTのすべてのバリエーションの中で最も低いランク-1の精度(95.1)とmAPスコア(86.5)を示す。 0.74
Experiment 3 combines the the first and second experiments by utilizing the globally enhanced local tokens. 実験3は、グローバルに拡張されたローカルトークンを利用して、第1および第2の実験を組み合わせる。 0.62
The impact of global and local features is also compared using LA-Transformer via three variations: global, local, and globally enhanced local tokens. グローバルおよびローカル機能の影響は、グローバル、ローカル、グローバルに拡張されたローカルトークンの3つのバリエーションを通じてla-transformerを使用して比較される。 0.64
All of the experiments with LA-Transformer perform better than the baseline ViT and its variations. LA-Transformerによる全ての実験は、ベースラインのViTとそのバリエーションよりも優れている。 0.74
LA-Transformer increases the rank-1 accuracy LA変換器はランク1の精度を高める 0.48
7 7 0.85
英語(論文から抽出)日本語訳スコア
Table 3: Comparison with State of the Art methods 表3:技術の現状との比較 0.61
Market-1501 CUHK-03 市場-1501 CUHK-03 0.57
Model PCB AANet IANet DG-Net TransReID Flip reid VA-reid st-Reid モデルPCB AANet IANet DG-Net TransReID Flip Reid VA-reid st-Reid 0.71
CTL Model LA-Transformer CTLモデル LA変換器 0.63
Rank-1 mAP Model 92.3 UTAL k-reciprocal 46 93.9 DG-Net 61.1 65.6 94.4 OIM 94.8 VI+LSRO 95.2 95.8 TriNet FD-GAN 96.79 DCDS 98 98 AlignedReID 98.27 Rank-1 mAP Model 92.3 UTAL k-reciprocal 46 93.9 DG-Net 61.1 65.6 94.4 OIM 94.8 VI+LSRO 95.2 95.8 TriNet FD-GAN 96.79 DCDS 98 98 AlignedReID 98.27 0.55
77.4 83.4 83.1 86 88.9 94.7 95.4 95.5 98.3 94.46 LA-Transformer 77.4 83.4 83.1 86 88.9 94.7 95.4 95.5 98.3 94.46 LA-Transformer 0.44
Rank-1 mAP 56.3 42.3 67.6 61.6 ランク-1 mAP 56.3 42.3 67.6 61.6 0.45
77.5 84.6 89.63 92.6 95.8 97.8 98.7 77.5 84.6 89.63 92.6 95.8 97.8 98.7 0.43
72.5 87.691.396.4 72.5 87.691.396.4 0.32
by +2.3% and mAP score by +2.6 on an average versus ViT over the experiments in table 2. 表2の実験では、平均で+2.3%、mAPで+2.6。 0.68
Similar to ViT with local features, LA-Transformer with only local features achieves the lowest accuracy of the LA-Transformer only experiments. 局所的な特徴を持つ ViT と同様に、局所的な特徴しか持たない LA-Transformer は、LA-Transformer 実験の最低精度を達成する。 0.61
Therefore, we conjecture that using only local vectors to predict the output and generate the final embedding is not sufficient. したがって、局所ベクトルのみを用いて出力を予測し、最終的な埋め込みを生成するだけでは不十分である。 0.73
Nevertheless, using globally enhanced local tokens outperforms the local only results by +1.31% rank-1 and +0.265 mAP and improves over the global only results by +0.62% rank-1 and +0.5 mAP. それでも、グローバルに拡張されたローカルトークンを使用すると、局所的な結果が+1.31%のランク-1と+0.265のmAPで、グローバルな結果だけが+0.62%のランク-1と+0.5のmAPで改善される。
訳抜け防止モード: それでもグローバルに拡張されたローカルトークンを使用する 局所的な結果のみを +1.31 % rank-1 と +0.265 mAP で上回る そして、グローバルな結果のみを+0.62%ランク-1と+0.5mAPで改善する。
0.52
Therefore LA-Transformer using globally enhanced local tokens achieves the highest rank-1 and mAP scores of all technique + feature embedding designs in this comparison. したがって、グローバルに拡張されたローカルトークンを用いたLA-Transformerは、この比較において、すべてのテクニックの最高ランク1とmAPスコアを得る。 0.53
Ablation study of Blockwise fine-tuning Blockwise fine-tuning achieves higher rank-1 and mAP scores in all experiments as compared against similar experiments without blockwise fine-tuning over the Market-1501 dataset. Blockwise fine-tuning Blockwise fine-tuningのアブレーション研究は、Market-1501データセットに対するブロックwise fine-tuningのない同様の実験と比較して、すべての実験においてより高いランク-1とmAPスコアを達成する。 0.56
As seen in Table 2, blockwise fine-tuning increases the rank-1 accuracy by +0.6% and mAP score by +0.77 on average across all of the experiments in this Ablation study. 表2に示すように、ブロック単位での微調整により、 rank-1 の精度は +0.6%、mapスコアは +0.77 に向上する。 0.57
During blockwise fine-tuning, the hyperparameter t is set to 2 which means, after every 2 epochs one additional block is unfrozen. ブロックワイズ微調整では、ハイパーパラメータtが2に設定され、2つのエポックの後に1つの追加ブロックが凍結されない。 0.58
The baseline ViT model has 12 blocks. ベースラインのViTモデルは12ブロックである。 0.80
Therefore, it takes 22 epochs to unfreeze and train on all the layers. そのため、解凍と全層での訓練には22時間を要する。 0.63
However, for most models, we found the best validation score is reached before the 22nd epoch, but rather after the 18th epoch yielding 10 trainable blocks during fine tuning. しかし,ほとんどのモデルでは,22世紀より前に最高の検証スコアが得られたが,18世紀以降の微調整では10ブロックの訓練が可能であった。 0.67
Figure 4.2 shows the comparison of validation results for LA-Transformer trained with and without blockwise fine-tuning. 図4.2は、ブロックワイズで訓練されたLA変換器の検証結果の比較である。 0.67
It can be clearly seen that blockwise fine-tuning leads to faster convergence and better results than the training model without blockwise fine-tuning. ブロックワイズ微調整が、ブロックワイズ微調整なしでトレーニングモデルよりも早く収束し、より良い結果をもたらすことは明らかである。 0.55
4.4 Comparison with state-of-the-art 4.4 最新技術との比較 0.55
To evaluate the performance of LA-Transformer, it is trained and evaluated five times on Market-1501 and CUHK03 and the mean results are reported in Table 3. LA変換器の性能を評価するため, Market-1501 と CUHK03 で5回評価を行い,平均結果を表3に示す。 0.82
On Market-1501, the rank-1 accuracy of LA-Transformer is 98.27% with standard deviation of 0.13 with blockwise fine-tuning and 97.55 with standard deviation of 0.49 without blockwise fine-tuning. Market-1501では、LA-Transformerのランク1の精度は98.27%、標準偏差0.13、標準偏差97.55、標準偏差0.49である。 0.59
On CUHK03, the rank-1 accuracy of LA-Transformer is 98.7% with a standard deviation of 0.2 with blockwise fine-tuning. CUHK03では、LA-Transformerのランク1の精度は98.7%、標準偏差は0.2、ブロックワイズ微調整である。 0.55
Table 3 compares LA Transformer with the state-of-the-art (SOTA) models on two benchmarks of person re-ID; Market-1501 and CUHK-03. 表3は、market-1501 と cuhk-03 の2つのベンチマークで、la transformer と state-of-the-art (sota) モデルを比較している。 0.46
On the Market-1501 dataset, LA-transformer achieves the highest reported rank-1 accuracy of all models in this comparison, and outperforms the rank-1 accuracy of the next highest SOTA model by +0.27%. Market-1501データセットでは、LA変換器は全モデルの最高ランク1の精度を達成し、次位のSOTAモデルのランク1の精度を+0.27%上回る。 0.77
On Market-1501, the mAP score lies among the top five SOTA models. マーケット-1501では、mAPスコアは上位5つのSOTAモデルのうちの1つである。 0.53
In case of CUHK-03, LA-Transformer achieves both the highest rank-1 accuracy as well as the highest mAP score, and outperforms the next highest SOTA models score by +0.9% (rank-1) and +5.1 (mAP) respectively. CUHK-03の場合、LA-Transformerは最高ランク1の精度と最高mAPスコアの両方を達成し、次位のSOTAモデルスコアは+0.9%(rank-1)と+5.1(mAP)でそれぞれ上回っている。 0.67
5 Conclusion We present a novel technique for person re-ID called Locally Aware Transformer (LA-Transformer) which achieves state-of-the-art performance on the Market-1501 and CHUK-03 datasets. 5 結論 本稿では,Market-1501およびCHUK-03データセットの最先端性能を実現するLA-Transformer(Local ly Aware Transformer)と呼ばれる人物再IDのための新しい手法を提案する。 0.66
This approach makes two contributions toward solving the person re-ID problem. このアプローチは、人物のre-ID問題の解決に2つの貢献をする。 0.59
First, we show that the 8 まず最初に示すのは 8 0.74
英語(論文から抽出)日本語訳スコア
global token and local token outputs of vision transformers can be combined with a PCB-like strategy to improve re-ID accuracy. ビジョントランスのグローバルトークンとローカルトークン出力をPCBのような戦略と組み合わせることで、re-ID精度を向上させることができる。 0.60
Secondly, we incorporate blockwise fine-tuning to regularize the fine tuning of a pre-trained vision transformer backbone network. 次に,事前学習された視覚トランスフォーマーバックボーンネットワークの微調整を正すためにブロックワイズ微調整を組み込んだ。
訳抜け防止モード: 次に、ブロックワイズファイン – チューニングを組み込む。 事前訓練されたビジョントランスフォーマーバックボーンネットワークの微調整を規則化する。
0.55
We believe that vision transformers will continue to have a major positive impact in the field of computer vision, and we are hopeful that the architectural design of LA-transformer will lead to further innovation and the development of new and novel techniques to advance our understanding of person re-ID. 我々は、ビジョントランスフォーマーがコンピュータビジョンの分野でも引き続き大きなプラスの影響を与えると信じており、la-transformerのアーキテクチャ設計がさらなるイノベーションと新たな技術の発展につながり、パーソン・リidの理解を促進することを期待している。 0.74
References Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 参照:Dzmitry Bahdanau,kyunghyun Cho,Yoshua Bengio。 0.65
Neural machine translation by jointly learning to 共同学習によるニューラルマシン翻訳 0.69
align and translate, 2016. align and translate、2016年。 0.90
Josh Beal, Eric Kim, Eric Tzeng, Dong Huk Park, Andrew Zhai, and Dmitry Kislyuk. Josh Beal、Eric Kim、Eric Tzeng、Dong Huk Park、Andrew Zhai、Dmitry Kislyuk。 0.72
Toward transformer-based トランスベースを目指して 0.42
object detection, 2020. 物体検出、2020年。 0.79
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov、Sergey Zagoruyko。 0.72
End-to-end object detection with transformers, 2020. 変圧器によるエンドツーエンド物体検出(2020年) 0.57
Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, and Yuyin 慈円成、永慶、清陽、Xiangde Luo、Ehsan Adeli、Yan Wang、Le Lu、Alan L. Yuille、Yuyin 0.64
Zhou. Transunet: Transformers make strong encoders for medical image segmentation, 2021. Zhou! transunet: トランスフォーマーは、医用画像セグメンテーション用の強いエンコーダを作る。 0.75
Tianlong Chen, Shaojin Ding, Jingyi Xie, Ye Yuan, Wuyang Chen, Yang Yang, Zhou Ren, and Zhangyang Wang. Tianlong Chen, Shaojin Ding, Jingyi Xie, Ye Yuan, Wuyang Chen, Yang Yang, Zhou Ren, Zhangyang Wang 0.71
Abd-net: Attentive but diverse person re-identification, 2019. Abd-net: 注意深いが多様な人物の再識別。 0.52
Changxing Ding, Kan Wang, Pengfei Wang, and Dacheng Tao. 清、漢王、Pengfei Wang、Dacheng Tao。 0.47
Multi-task learning with coarse priors for robust part-aware person re-identification. 頑健な部分認識者再同定のための粗い前処理を用いたマルチタスク学習 0.51
In Computer Vision and Pattern Recognition (cs.CV), 2020. コンピュータビジョンとパターン認識 (cs.CV)、2020年。 0.85
URL arXiv:2003.08069. URL arXiv:2003.08069 0.65
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby 0.77
An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードで、画像認識のためのトランスフォーマーである。 0.67
In Computer Vision and Pattern Recognition (cs.CV), 2020. コンピュータビジョンとパターン認識 (cs.CV)、2020年。 0.85
URL arXiv:2010.11929. URL arXiv:2010.11929 0.65
Alaaeldin El-Nouby, Natalia Neverova, Ivan Laptev, and Hervé Jégou. Alaaeldin El-Nouby、Natalia Neverova、Ivan Laptev、Hervé Jégou。 0.70
Training vision transformers for image 画像用視覚トランスフォーマーの訓練 0.85
retrieval, 2021. Jianyuan Guo, Yuhui Yuan, Lang Huang, Chao Zhang, Jinge Yao, and Kai Han. 2021年。 Jianyuan Guo, Yuhui Yuan, Lang Huang, Chao Zhang, Jinge Yao, Kai Han 0.60
Beyond human parts: Dual 人間以外の部分:デュアル 0.78
part-aligned representations for person re-identification, 2019. 人物再特定のための部分整合表現、2019年。 0.44
Shuting He, Hao Luo, Pichao Wang, Fan Wang, Hao Li, and Wei Jiang. Shuting He, Hao Luo, Pichao Wang, Fan Wang, Hao Li, Wei Jiang 0.69
Transreid: Transformer-based object Transreid: Transformerベースのオブジェクト 0.80
re-identification, 2021. 2021年、再確認。 0.59
Fabian Herzog, Xunbo Ji, Torben Teepe, Stefan Hörmann, Johannes Gilg, and Gerhard Rigoll. Fabian Herzog, Xunbo Ji, Torben Teepe, Stefan Hörmann, Johannes Gilg, Gerhard Rigoll。 0.78
Lightweight multi-branch network for person re-identification, 2021. 軽量 人物再特定用マルチブランチネットワーク、2021年。 0.66
Jeremy Howard and Sebastian Ruder. ジェレミー・ハワードとセバスチャン・ルーダー 0.56
Fine-tuned language models for text classification. テキスト分類のための微調整言語モデル。 0.70
CoRR, abs/1801.06146, CoRR, abs/1801.06146 0.71
2018. URL http://arxiv.org/abs /1801.06146. 2018. URL http://arxiv.org/abs /1801.06146 0.65
Jeff Johnson, Matthijs Douze, and Hervé Jégou. Jeff Johnson、Matthijs Douze、Hervé Jégou。 0.63
Billion-scale similarity search with gpus. gpusによる数十億ドル規模の類似検索。 0.57
arXiv preprint arXiv プレプリント 0.83
arXiv:1702.08734, 2017. arXiv:1702.08734, 2017。 0.62
Thomas N. Kipf and Max Welling. トーマス・N・キップとマックス・ウェリング。 0.58
Semi-supervised classification with graph convolutional networks, 2017. 半教師付き分類 with graph convolutional networks, 2017 0.78
Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang. Wei Li, Rui Zhao, Tong Xiao, Xiaogang Wang 0.66
Deepreid: Deep filter pairing neural network for person Deepreid: 人のためのディープフィルタペアリングニューラルネットワーク 0.59
re-identification. In CVPR, 2014. 再識別。 2014年、CVPR。 0.63
Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Łukasz Kaiser, Noam Shazeer, Alexander Ku, and Dustin Tran. Niki Parmar、Ashish Vaswani、Jakob Uszkoreit、Sukasz Kaiser、Noam Shazeer、Alexander Ku、Dustin Tran。 0.63
Image transformer, 2018. イメージトランスフォーマー、2018年。 0.72
Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, and Lihi Zelnik-Manor. Tal Ridnik、Emanuel Ben-Baruch、Asaf Noy、Lihi Zelnik-Manor。 0.77
Imagenet-21k pretraining for the masses, Imagenet-21k Pretraining for the masses, 0.81
2021. M. Saquib Sarfraz, Arne Schumann, Andreas Eberle, and Rainer Stiefelhagen. 2021. M. Saquib Sarfraz、Arne Schumann、Andreas Eberle、Rainer Stiefelhagen。 0.78
A pose-sensitive embedding for ポーズに敏感な埋め込み 0.63
person re-identification with expanded cross neighborhood re-ranking, 2018. クロス地区を拡大した人物の身元確認は2018年。 0.44
Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and Shengjin Wang. Yifan Sun、Liang Zheng、Yi Yang、Qi Tian、Sengjin Wang。 0.69
Beyond part models: Person retrieval with 部分モデルを超えて:人物検索 0.72
refined part pooling (and a strong convolutional baseline), 2018. 洗練された部分プーリング(そして強力な畳み込みベースライン) 2018年 0.69
9 9 0.85
英語(論文から抽出)日本語訳スコア
Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles、Hervé Jégou。 0.65
Training data-efficient image transformers & distillation through attention. データ効率のよい画像変換器の訓練と注意による蒸留 0.64
CoRR, abs/2012.12877, 2020. CoRR, abs/2012.12877, 2020 0.79
URL https://arxiv.org/ab s/2012.12877. URL https://arxiv.org/ab s/2012.12877 0.46
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin 0.76
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Neural Information Processing Systems, 2020. 神経情報処理システム、2020年。 0.67
URL arXiv:2010.11929. URL arXiv:2010.11929 0.65
Haoran Wang, Yue Fan, Zexin Wang, Licheng Jiao, and Bernt Schiele. Haoran Wang, Yue Fan, Zexin Wang, Licheng Jiao, Bernt Schiele。 0.72
Parameter-free spatial attention network パラメータフリー空間注意ネットワーク 0.84
for person re-identification, 2018a. 人物の身元確認は2018a。 0.37
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling 0.87
Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions, 2021. Shao ピラミッドビジョントランスフォーマー:畳み込みのない密集した予測のための多用途なバックボーン、2021年。 0.60
Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Xiaolong Wang、Ross Girshick、Abhinav Gupta、Kaming He。 0.62
Non-local neural networks, 2018b. 非局所ニューラルネットワーク、2018b。 0.62
Bichen Wu, Chenfeng Xu, Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Zhicheng Yan, Masayoshi Tomizuka, Joseph Gonzalez, Kurt Keutzer, and Peter Vajda. Bichen Wu, Chenfeng Xu, Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Zhicheng Yan, Tomizuka Masayoshi, Joseph Gonzalez, Kurt Keutzer, Peter Vajda 0.73
Visual transformers: Token-based image representation and processing for computer vision, 2020. 視覚変換器:コンピュータビジョンのためのトークンベースの画像表現と処理。 0.77
Ben Xie, Xiaofu Wu, Suofei Zhang, Shiliang Zhao, and Ming Li. Ben Xie、Xiaofu Wu、Suofei Zhang、Shiliang Zhao、Ming Li。 0.68
Learning diverse features with part-level part-levelで多様な特徴を学ぶ 0.63
resolution for person re-identification, 2020. 人物再確認の決議、2020年。 0.54
Hantao Yao, Shiliang Zhang, Yongdong Zhang, Jintao Li, and Qi Tian. hantao yao, shiliang zhang, yongdong zhang, jintao li, qi tian。 0.54
Deep representation learning with part loss for person re-identification. 人物再識別のための部分的損失を伴う深層表現学習 0.72
In Computer Vision and Pattern Recognition (cs.CV), 2017. コンピュータビジョンとパターン認識 (cs.CV) 2017年。 0.78
URL arXiv:1707.00798. URL arXiv:1707.00798 0.65
Hantao Yao, Shiliang Zhang, Yongdong Zhang, Jintao Li, and Qi Tian. hantao yao, shiliang zhang, yongdong zhang, jintao li, qi tian。 0.54
Spatial-temporal person re-identification. 時空間人物の再識別。 0.47
In Computer Vision and Pattern Recognition (cs.CV), 2018. コンピュータビジョンとパターン認識 (cs.CV) 2018年。 0.78
URL arXiv:1812.03282. URL arXiv:1812.03282。 0.57
Fufu Yu, Xinyang Jiang, Yifei Gong, Shizhen Zhao, Xiaowei Guo, Wei-Shi Zheng, Feng Zheng, and Xing Sun. フフユ、新陽江、永永、シーシェン・ジャオ、キョウエイ・グオ、ワイシ・チェン、フェン・チェン、Xing Sun。
訳抜け防止モード: ふふゆ、新陽江、英慶、シーシェン・ジャオ Xiaowei Guo, Wei - Shi Zheng, Feng Zheng, そして、Xing Sun。
0.79
Devil’s in the details: Aligning visual clues for conditional embedding in person re-identification, 2020. Devil’s in details: Aligning visual clues for conditional embedded in person re-identification, 2020。 0.83
Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、Jian Sun。 0.69
Shufflenet: An extremely efficient convolutional Shufflenet: 極めて効率的な畳み込み 0.87
neural network for mobile devices, 2017. 2017年、モバイルデバイス用ニューラルネットワーク。 0.72
Xuan Zhang, Hao Luo, Xing Fan, Weilai Xiang, Yixiao Sun, Qiqi Xiao, Wei Jiang, Chi Zhang, and Jian Sun. Xuan Zhang, Hao Luo, Xing Fan, Weilai Xiang, Yixiao Sun, Qiqi Xiao, Wei Jiang, Chi Zhang, Jian Sun 0.73
Alignedreid: Surpassing human-level performance in person re-identification, 2018. Alignedreid: 個人の再識別における人間レベルのパフォーマンスを克服する。 0.57
Feng Zheng, Cheng Deng, Xing Sun, Xinyang Jiang, Xiaowei Guo, Zongqiao Yu, Feiyue Huang, and Rongrong Ji. Feng Zheng、Cheng Deng、Xing Sun、Xinyang Jiang、Xiaowei Guo、Zongqiao Yu、Feiyue Huang、Rongrong Ji。
訳抜け防止モード: feng zheng氏, cheng deng氏, xing sun氏, xinyang氏, xinyang氏 xiaowei guo, zongqiao yu, feiyue huang, rongrong ji。
0.77
Pyramidal person re-identification via multi-loss dynamic training. マルチロス動的トレーニングによるピラミッド型人物再同定。 0.64
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2019年6月。 0.90
Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, and Qi Tian. Liang Zheng、Liyue Shen、Lu Tian、Sengjin Wang、Jingdong Wang、Qi Tian。 0.70
Scalable person re- スケーラブルな人の再考 0.34
identification: A benchmark. 識別: ベンチマーク。 0.55
pages 1116–1124, 12 2015. doi: 10.1109/ICCV.2015.13 3. ページ 1116–1124, 12 2015 doi: 10.1109/ICCV.2015.13 3。 0.54
Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, and Jiashi Feng. Daquan Zhou, Bingy Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi Feng 0.71
Deepvit: Towards deeper vision transformer. deepvit: より深いビジョントランスフォーマーを目指しています。 0.57
CoRR, abs/2103.11886, 2021. CoRR, abs/2103.11886, 2021 0.77
URL https://arxiv.org/ab s/2103. URL https://arxiv.org/ab s/2103。 0.50
11886. Yi Zhou and Ling Shao. 11886. Yi ZhouとLing Shao。 0.79
Viewpoint-aware attentive multi-view inference for vehicle re-identification. 車両再識別のための視点認識多視点推論 0.63
Computer Vision and Pattern Recognition (cs.CV), 2018. コンピュータビジョンとパターン認識 (cs.CV) 2018年。 0.87
In Zhihui Zhu, Xinyang Jiang, Feng Zheng, Xiaowei Guo, Feiyue Huang, Weishi Zheng, and Xing Suno. 院 Zhihui Zhu、Xinyang Jiang、Feng Zheng、Xiaowei Guo、Feiyue Huang、Weishi Zheng、Xing Suno。 0.55
Viewpointaware loss with angular regularization for person re-identification. 人物再識別のための角正規化による視点認識損失 0.57
In Computer Vision and Pattern Recognition (cs.CV), 2019. コンピュータビジョンとパターン認識 (cs.CV) 2019年。 0.81
URL arXiv:1912.01300. URL arXiv:1912.01300 0.65
10 10 0.85
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。