論文の概要: Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2402.10435v1
- Date: Fri, 16 Feb 2024 03:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:29:44.973756
- Title: Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification
- Title(参考訳): 咬合者再同定のための動的パッチアウェアエンリッチメントトランス
- Authors: Xin Zhang, Keren Fu, and Qijun Zhao
- Abstract要約: DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
- 参考スコア(独自算出の注目度): 14.219232629274186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (re-ID) continues to pose a significant challenge,
particularly in scenarios involving occlusions. Prior approaches aimed at
tackling occlusions have predominantly focused on aligning physical body
features through the utilization of external semantic cues. However, these
methods tend to be intricate and susceptible to noise. To address the
aforementioned challenges, we present an innovative end-to-end solution known
as the Dynamic Patch-aware Enrichment Transformer (DPEFormer). This model
effectively distinguishes human body information from occlusions automatically
and dynamically, eliminating the need for external detectors or precise image
alignment. Specifically, we introduce a dynamic patch token selection module
(DPSM). DPSM utilizes a label-guided proxy token as an intermediary to identify
informative occlusion-free tokens. These tokens are then selected for deriving
subsequent local part features. To facilitate the seamless integration of
global classification features with the finely detailed local features selected
by DPSM, we introduce a novel feature blending module (FBM). FBM enhances
feature representation through the complementary nature of information and the
exploitation of part diversity. Furthermore, to ensure that DPSM and the entire
DPEFormer can effectively learn with only identity labels, we also propose a
Realistic Occlusion Augmentation (ROA) strategy. This strategy leverages the
recent advances in the Segment Anything Model (SAM). As a result, it generates
occlusion images that closely resemble real-world occlusions, greatly enhancing
the subsequent contrastive learning process. Experiments on occluded and
holistic re-ID benchmarks signify a substantial advancement of DPEFormer over
existing state-of-the-art approaches. The code will be made publicly available.
- Abstract(参考訳): 人物の再識別(re-ID)は、特に閉塞を含むシナリオにおいて、大きな課題を呈し続けている。
従来、オクルージョンに対処するためのアプローチは、外的セマンティック・キューの利用を通じて身体の特徴の整合に重点を置いてきた。
しかし、これらの手法は複雑でノイズの影響を受けやすい傾向がある。
上記の課題に対処するため、Dynamic Patch-aware Enrichment Transformer (DPEFormer)と呼ばれる革新的なエンドツーエンドソリューションを提案する。
このモデルは人体情報を自動的にかつ動的に識別し、外部検出器や正確な画像アライメントを必要としない。
具体的には、動的パッチトークン選択モジュール(DPSM)を紹介する。
DPSMは、ラベル誘導されたプロキシトークンを仲介体として利用し、情報による隠蔽のないトークンを識別する。
これらのトークンは、後続のローカル部分の特徴を引き出すために選択される。
DPSMが選択した局所的特徴とグローバルな分類機能のシームレスな統合を容易にするため,新しい特徴ブレンディングモジュール(FBM)を導入する。
FBMは情報の相補的な性質と部分多様性の活用を通じて特徴表現を強化する。
さらに,DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを確認するため,実効性拡張 (ROA) 戦略を提案する。
この戦略はSegment Anything Model(SAM)の最近の進歩を活用している。
その結果、実世界のオクルージョンによく似たオクルージョン画像を生成し、その後のコントラスト学習プロセスを大幅に強化する。
DPEFormerが既存の最先端のアプローチよりも大幅に進歩したことを示している。
コードは公開される予定だ。
関連論文リスト
- ProFD: Prompt-Guided Feature Disentangling for Occluded Person Re-Identification [34.38227097059117]
本稿では,Prompt-Guided Feature Disentangling法(ProFD)を提案する。
ProFDはまず部分固有のプロンプトを設計し、ノイズセグメンテーションマスクを用いて視覚とテキストの埋め込みを予め調整する。
我々は,CLIPの事前訓練された知識を保ち,過度な適合を緩和する自己蒸留戦略を採用している。
論文 参考訳(メタデータ) (2024-09-30T08:31:14Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Robust Ensemble Person Re-Identification via Orthogonal Fusion with Occlusion Handling [4.431087385310259]
排除は、個人再識別(ReID)における大きな課題の1つとして残されている。
本稿では,CNN と Transformer アーキテクチャを併用し,ロバストな特徴表現を生成する深層アンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T18:38:59Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。