論文の概要: Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2402.10435v1
- Date: Fri, 16 Feb 2024 03:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:29:44.973756
- Title: Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification
- Title(参考訳): 咬合者再同定のための動的パッチアウェアエンリッチメントトランス
- Authors: Xin Zhang, Keren Fu, and Qijun Zhao
- Abstract要約: DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
- 参考スコア(独自算出の注目度): 14.219232629274186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (re-ID) continues to pose a significant challenge,
particularly in scenarios involving occlusions. Prior approaches aimed at
tackling occlusions have predominantly focused on aligning physical body
features through the utilization of external semantic cues. However, these
methods tend to be intricate and susceptible to noise. To address the
aforementioned challenges, we present an innovative end-to-end solution known
as the Dynamic Patch-aware Enrichment Transformer (DPEFormer). This model
effectively distinguishes human body information from occlusions automatically
and dynamically, eliminating the need for external detectors or precise image
alignment. Specifically, we introduce a dynamic patch token selection module
(DPSM). DPSM utilizes a label-guided proxy token as an intermediary to identify
informative occlusion-free tokens. These tokens are then selected for deriving
subsequent local part features. To facilitate the seamless integration of
global classification features with the finely detailed local features selected
by DPSM, we introduce a novel feature blending module (FBM). FBM enhances
feature representation through the complementary nature of information and the
exploitation of part diversity. Furthermore, to ensure that DPSM and the entire
DPEFormer can effectively learn with only identity labels, we also propose a
Realistic Occlusion Augmentation (ROA) strategy. This strategy leverages the
recent advances in the Segment Anything Model (SAM). As a result, it generates
occlusion images that closely resemble real-world occlusions, greatly enhancing
the subsequent contrastive learning process. Experiments on occluded and
holistic re-ID benchmarks signify a substantial advancement of DPEFormer over
existing state-of-the-art approaches. The code will be made publicly available.
- Abstract(参考訳): 人物の再識別(re-ID)は、特に閉塞を含むシナリオにおいて、大きな課題を呈し続けている。
従来、オクルージョンに対処するためのアプローチは、外的セマンティック・キューの利用を通じて身体の特徴の整合に重点を置いてきた。
しかし、これらの手法は複雑でノイズの影響を受けやすい傾向がある。
上記の課題に対処するため、Dynamic Patch-aware Enrichment Transformer (DPEFormer)と呼ばれる革新的なエンドツーエンドソリューションを提案する。
このモデルは人体情報を自動的にかつ動的に識別し、外部検出器や正確な画像アライメントを必要としない。
具体的には、動的パッチトークン選択モジュール(DPSM)を紹介する。
DPSMは、ラベル誘導されたプロキシトークンを仲介体として利用し、情報による隠蔽のないトークンを識別する。
これらのトークンは、後続のローカル部分の特徴を引き出すために選択される。
DPSMが選択した局所的特徴とグローバルな分類機能のシームレスな統合を容易にするため,新しい特徴ブレンディングモジュール(FBM)を導入する。
FBMは情報の相補的な性質と部分多様性の活用を通じて特徴表現を強化する。
さらに,DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを確認するため,実効性拡張 (ROA) 戦略を提案する。
この戦略はSegment Anything Model(SAM)の最近の進歩を活用している。
その結果、実世界のオクルージョンによく似たオクルージョン画像を生成し、その後のコントラスト学習プロセスを大幅に強化する。
DPEFormerが既存の最先端のアプローチよりも大幅に進歩したことを示している。
コードは公開される予定だ。
関連論文リスト
- UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Multi-view Information Integration and Propagation for Occluded Person
Re-identification [36.91680117072686]
被占領者の再識別(re-ID)は,閉塞摂動による課題である。
現在のほとんどのソリューションは、1つの画像からのみ情報をキャプチャし、同じ歩行者を描いた複数の画像で利用可能な豊富な補完情報を無視している。
我々はMVI$2$P(Multi-view Information Integration and Propagation)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-07T09:17:56Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Feature Completion Transformer for Occluded Person Re-identification [14.735577283631509]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Learning Disentangled Representation Implicitly via Transformer for
Occluded Person Re-Identification [35.40162083252931]
DRL-Netは、厳格な人物画像アライメントや追加の監督を必要とすることなく、隠蔽されたre-IDを処理する表現学習ネットワークである。
定義されていないセマンティックコンポーネントの表現を自動的に切り離すことで、画像の類似度を測定する。
DRL-Netは、一貫して優れたre-ID性能を達成し、Occluded-DukeMTMCに対して大きなマージンで最先端の性能を上回る。
論文 参考訳(メタデータ) (2021-07-06T04:24:10Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - Style Normalization and Restitution for Generalizable Person
Re-identification [89.482638433932]
我々は、ソースドメイン上でモデルをトレーニングするが、ターゲットドメイン上での一般化や性能をよく行うことのできる、一般化可能な人物ReIDフレームワークを設計する。
本稿では,シンプルで効果的なスタイル正規化・再構成(SNR)モジュールを提案する。
SNRモジュールによって強化された我々のモデルは、複数の広く使われているReIDベンチマークにおいて最先端のドメイン一般化アプローチよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-05-22T07:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。