論文の概要: Short Range Correlation Transformer for Occluded Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2201.01090v1
- Date: Tue, 4 Jan 2022 11:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:05:11.570578
- Title: Short Range Correlation Transformer for Occluded Person
Re-Identification
- Title(参考訳): 人物再同定のための短距離相関変換器
- Authors: Yunbin Zhao, Songhao Zhu, Dongsheng Wang, Zhiwei Liang
- Abstract要約: PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
- 参考スコア(独自算出の注目度): 4.339510167603376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occluded person re-identification is one of the challenging areas of computer
vision, which faces problems such as inefficient feature representation and low
recognition accuracy. Convolutional neural network pays more attention to the
extraction of local features, therefore it is difficult to extract features of
occluded pedestrians and the effect is not so satisfied. Recently, vision
transformer is introduced into the field of re-identification and achieves the
most advanced results by constructing the relationship of global features
between patch sequences. However, the performance of vision transformer in
extracting local features is inferior to that of convolutional neural network.
Therefore, we design a partial feature transformer-based person
re-identification framework named PFT. The proposed PFT utilizes three modules
to enhance the efficiency of vision transformer. (1) Patch full dimension
enhancement module. We design a learnable tensor with the same size as patch
sequences, which is full-dimensional and deeply embedded in patch sequences to
enrich the diversity of training samples. (2) Fusion and reconstruction module.
We extract the less important part of obtained patch sequences, and fuse them
with original patch sequence to reconstruct the original patch sequences. (3)
Spatial Slicing Module. We slice and group patch sequences from spatial
direction, which can effectively improve the short-range correlation of patch
sequences. Experimental results over occluded and holistic re-identification
datasets demonstrate that the proposed PFT network achieves superior
performance consistently and outperforms the state-of-the-art methods.
- Abstract(参考訳): occluded person re-identificationは、非効率な特徴表現や低い認識精度といった問題に直面したコンピュータビジョンの難題の1つである。
畳み込みニューラルネットワークは、局所的な特徴の抽出により多くの注意を払うため、閉塞した歩行者の特徴を抽出することは困難であり、その効果は満足できない。
近年、視覚トランスフォーマーが再同定の分野に導入され、パッチシーケンス間のグローバル特徴の関係を構築することにより、最も高度な結果が得られる。
しかし、局所特徴抽出における視覚トランスフォーマーの性能は畳み込みニューラルネットワークの性能よりも劣っている。
そこで我々はPFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを設計する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
1)全次元強化モジュールをパッチする。
パッチシーケンスと同等の大きさの学習可能なテンソルを設計し、パッチシーケンスに完全次元で深く埋め込まれ、トレーニングサンプルの多様性を高める。
(2)融合・再構成モジュール
得られたパッチシーケンスの重要でない部分を抽出し、元のパッチシーケンスと融合して元のパッチシーケンスを再構築する。
(3)空間スライシングモジュール
我々は,パッチシーケンスの短距離相関を効果的に改善できる空間的方向からパッチシーケンスをスライスし,グループ化する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークは高い性能を示し,最先端の手法よりも優れていた。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Improving Transformer-based Image Matching by Cascaded Capturing
Spatially Informative Keypoints [44.90917854990362]
変換器を用いたカスケードマッチングモデル -- Cascade Feature Matching TRansformer (CasMTR) を提案する。
我々は、信頼性マップを通じてキーポイントをフィルタリングするために、単純で効果的な非最大抑圧(NMS)後処理を使用する。
CasMTRは、室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-03-06T04:32:34Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。