論文の概要: Person Re-Identification with a Locally Aware Transformer
- arxiv url: http://arxiv.org/abs/2106.03720v2
- Date: Tue, 8 Jun 2021 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 12:08:16.223825
- Title: Person Re-Identification with a Locally Aware Transformer
- Title(参考訳): 局所認識トランスフォーマーによる人物再同定
- Authors: Charu Sharma, Siddhant R. Kapil, David Chapman
- Abstract要約: そこで我々は,局所的に拡張された局所的分類トークンを集約するための,パートベースの畳み込みベースライン(PCB)にインスパイアされた戦略を取り入れた,局所的認識変換器(LA-Transformer)を提案する。
ブロックワイズ微調整のLA-Transformerは、標準偏差がマーケット1501で0.13ドル、標準偏差がCUHK03で0.1ドル、ランク1の精度が980.27ドルである。
- 参考スコア(独自算出の注目度): 9.023847175654602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person Re-Identification is an important problem in computer vision-based
surveillance applications, in which the same person is attempted to be
identified from surveillance photographs in a variety of nearby zones. At
present, the majority of Person re-ID techniques are based on Convolutional
Neural Networks (CNNs), but Vision Transformers are beginning to displace pure
CNNs for a variety of object recognition tasks. The primary output of a vision
transformer is a global classification token, but vision transformers also
yield local tokens which contain additional information about local regions of
the image. Techniques to make use of these local tokens to improve
classification accuracy are an active area of research. We propose a novel
Locally Aware Transformer (LA-Transformer) that employs a Parts-based
Convolution Baseline (PCB)-inspired strategy for aggregating globally enhanced
local classification tokens into an ensemble of $\sqrt{N}$ classifiers, where
$N$ is the number of patches. An additional novelty is that we incorporate
blockwise fine-tuning which further improves re-ID accuracy. LA-Transformer
with blockwise fine-tuning achieves rank-1 accuracy of $98.27 \%$ with standard
deviation of $0.13$ on the Market-1501 and $98.7\%$ with standard deviation of
$0.2$ on the CUHK03 dataset respectively, outperforming all other
state-of-the-art published methods at the time of writing.
- Abstract(参考訳): 人物再同定はコンピュータビジョンに基づく監視アプリケーションにおいて重要な問題であり、同じ人物が近隣の様々な地域の監視写真から特定される。
現在、Person re-ID技術の大部分は畳み込みニューラルネットワーク(CNN)に基づいているが、視覚変換器はさまざまなオブジェクト認識タスクのために純粋なCNNを置き換え始めている。
視覚変換器の一次出力はグローバルな分類トークンであるが、視覚変換器は画像の局所領域に関する追加情報を含む局所トークンも生成する。
これらの局所トークンを用いて分類精度を向上させる技術は研究の活発な領域である。
そこで我々は,局所的に拡張された局所分類トークンを$\sqrt{N}$分類器のアンサンブルに集約する,Partsベースの畳み込みベースライン(PCB)にインスパイアされた戦略を取り入れた,局所認識変換器(LA-Transformer)を提案する。
さらに、ブロックワイズ細調整を取り入れることで、re-ID精度がさらに向上する点も新規である。
ブロックワイズ微調整付きla変換器は、マーケット-1501で0.13$の標準偏差で98.27$%、cuhk03データセットでそれぞれ0.2$の標準偏差で98.7\%のランク-1精度を達成し、執筆時点での他の最先端の公開メソッドよりも優れている。
関連論文リスト
- Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers [5.825612611197359]
微粒な認識には、下位のマクロカテゴリからのイメージの分類が含まれる。
本稿では,画像中の識別領域を識別する新しい,計算コストの低い指標を提案する。
提案手法は,提案手法よりも計算コストの低い結果が得られる。
論文 参考訳(メタデータ) (2024-07-17T10:04:54Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Part-Aware Transformer for Generalizable Person Re-identification [138.99827526048205]
ドメイン一般化者再識別(DG-ReID)は、ソースドメインのモデルをトレーニングし、目に見えないドメインでうまく一般化することを目的としている。
我々は、CSL(Cross-ID similarity Learning)と呼ばれるプロキシタスクを設計し、DG-ReIDのための純粋なトランスモデル(Part-aware Transformer)を提案する。
このプロキシタスクは、IDラベルに関わらず、部品の視覚的類似性のみを気にするので、モデルが一般的な機能を学ぶことができる。
論文 参考訳(メタデータ) (2023-08-07T06:15:51Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Dynamic Token Normalization Improves Vision Transformer [48.63155906080236]
動的トークン正規化(DTN)と呼ばれる新しい正規化器を提案する。
DTNはトークンをトークン内およびトークン間の両方で正規化することを学ぶ。
最小限の余分なパラメータと計算オーバーヘッドでベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2021-12-05T17:04:59Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。