論文の概要: Transformer Based Multi-Grained Features for Unsupervised Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2211.12280v1
- Date: Tue, 22 Nov 2022 13:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:19:09.738286
- Title: Transformer Based Multi-Grained Features for Unsupervised Person
Re-Identification
- Title(参考訳): 変圧器を用いた教師なし人物再同定のための多機能化
- Authors: Jiachen Li, Menglin Wang, Xiaojin Gong
- Abstract要約: 視覚変換器(ViT)を改良したデュアルブランチネットワークアーキテクチャを構築した。
各ブランチで出力されるローカルトークンをリフォームし、その後一様に複数のストライプに分割して、部分レベルの特徴を生成する。
2つのブランチのグローバルトークンは、グローバル機能を生成するために平均化されます。
- 参考スコア(独自算出の注目度): 9.874360118638918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-grained features extracted from convolutional neural networks (CNNs)
have demonstrated their strong discrimination ability in supervised person
re-identification (Re-ID) tasks. Inspired by them, this work investigates the
way of extracting multi-grained features from a pure transformer network to
address the unsupervised Re-ID problem that is label-free but much more
challenging. To this end, we build a dual-branch network architecture based
upon a modified Vision Transformer (ViT). The local tokens output in each
branch are reshaped and then uniformly partitioned into multiple stripes to
generate part-level features, while the global tokens of two branches are
averaged to produce a global feature. Further, based upon offline-online
associated camera-aware proxies (O2CAP) that is a top-performing unsupervised
Re-ID method, we define offline and online contrastive learning losses with
respect to both global and part-level features to conduct unsupervised
learning. Extensive experiments on three person Re-ID datasets show that the
proposed method outperforms state-of-the-art unsupervised methods by a
considerable margin, greatly mitigating the gap to supervised counterparts.
Code will be available soon at https://github.com/RikoLi/WACV23-workshop-TMGF.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)から抽出された多粒な特徴は、教師付き人物再識別(Re-ID)タスクにおいて、その強力な識別能力を示している。
それらから着想を得た本研究では,ラベルのないがより困難なRe-ID問題に対処するために,純粋なトランスフォーマーネットワークから多粒度特徴を抽出する方法を検討する。
この目的のために,視覚変換器 (ViT) を改良したデュアルブランチネットワークアーキテクチャを構築した。
各ブランチで出力されるローカルトークンは、複数のストライプに一様に分割して部分レベルの特徴を生成する一方、2つのブランチのグローバルトークンは、グローバルな特徴を生成するために平均化される。
さらに、オフライン・オフライン対応カメラ対応プロキシ(O2CAP)をベースとして、教師なし学習を行うためのグローバルおよびパートレベルの機能に関して、オフラインおよびオンラインのコントラスト学習損失を定義する。
3人のRe-IDデータセットに対する大規模な実験により、提案手法は最先端の教師なし手法をかなりのマージンで上回り、教師なし手法とのギャップを大幅に軽減することを示した。
コードは近々https://github.com/RikoLi/WACV23-workshop-TMGF.comで公開される。
関連論文リスト
- D$^3$: Scaling Up Deepfake Detection by Learning from Discrepancy [11.239248133240126]
我々は、より一般化と堅牢性のある普遍的なディープフェイク検出システムに向けた一歩を踏み出した。
本稿では,複数のジェネレータから汎用的なアーティファクトを学習することを目的として,Drepancy Deepfake Detectorフレームワークを提案する。
本フレームワークは,ID性能を維持しながら,現在のSOTA法と比較してOOD検査の精度を5.3%向上させる。
論文 参考訳(メタデータ) (2024-04-06T10:45:02Z) - CMFDFormer: Transformer-based Copy-Move Forgery Detection with Continual
Learning [52.72888626663642]
コピーモーブ偽造検出は、疑わしい偽画像中の重複領域を検出することを目的としている。
深層学習に基づく複写偽造検出手法が最上位にある。
CMFDFormer という名称の Transformer-style copy-move forgery ネットワークを提案する。
また、CMFDFormerが新しいタスクを処理できるように、新しいPCSD連続学習フレームワークを提供する。
論文 参考訳(メタデータ) (2023-11-22T09:27:46Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Offline-Online Associated Camera-Aware Proxies for Unsupervised Person
Re-identification [31.065557919305892]
教師なしの人物再識別(Re-ID)は研究の注目を集めている。
ほとんどのクラスタリングベースのメソッドは、各クラスタを擬似IDクラスとして扱う。
カメラビューに応じて,各クラスタを複数のプロキシに分割することを提案する。
論文 参考訳(メタデータ) (2022-01-15T10:12:03Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。