論文の概要: ProFD: Prompt-Guided Feature Disentangling for Occluded Person Re-Identification
- arxiv url: http://arxiv.org/abs/2409.20081v1
- Date: Mon, 30 Sep 2024 08:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 19:42:09.215415
- Title: ProFD: Prompt-Guided Feature Disentangling for Occluded Person Re-Identification
- Title(参考訳): ProFD: 身近な人物再同定のためのプロンプトガイド型機能ディアンタングリング
- Authors: Can Cui, Siteng Huang, Wenxuan Song, Pengxiang Ding, Min Zhang, Donglin Wang,
- Abstract要約: 本稿では,Prompt-Guided Feature Disentangling法(ProFD)を提案する。
ProFDはまず部分固有のプロンプトを設計し、ノイズセグメンテーションマスクを用いて視覚とテキストの埋め込みを予め調整する。
我々は,CLIPの事前訓練された知識を保ち,過度な適合を緩和する自己蒸留戦略を採用している。
- 参考スコア(独自算出の注目度): 34.38227097059117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the occlusion issues in person Re-Identification (ReID) tasks, many methods have been proposed to extract part features by introducing external spatial information. However, due to missing part appearance information caused by occlusion and noisy spatial information from external model, these purely vision-based approaches fail to correctly learn the features of human body parts from limited training data and struggle in accurately locating body parts, ultimately leading to misaligned part features. To tackle these challenges, we propose a Prompt-guided Feature Disentangling method (ProFD), which leverages the rich pre-trained knowledge in the textual modality facilitate model to generate well-aligned part features. ProFD first designs part-specific prompts and utilizes noisy segmentation mask to preliminarily align visual and textual embedding, enabling the textual prompts to have spatial awareness. Furthermore, to alleviate the noise from external masks, ProFD adopts a hybrid-attention decoder, ensuring spatial and semantic consistency during the decoding process to minimize noise impact. Additionally, to avoid catastrophic forgetting, we employ a self-distillation strategy, retaining pre-trained knowledge of CLIP to mitigate over-fitting. Evaluation results on the Market1501, DukeMTMC-ReID, Occluded-Duke, Occluded-ReID, and P-DukeMTMC datasets demonstrate that ProFD achieves state-of-the-art results. Our project is available at: https://github.com/Cuixxx/ProFD.
- Abstract(参考訳): 人物再同定(ReID)タスクにおける閉塞問題に対処するため,外部空間情報を導入して部分的特徴を抽出する手法が多数提案されている。
しかし、外的モデルからの隠蔽やノイズのある空間情報による外観情報の欠如により、これらの純粋視覚に基づくアプローチは、限られた訓練データから人体の特徴を正しく学習することができず、最終的には不整合部分の特徴に繋がる。
これらの課題に対処するために,テキストモダリティ促進モデルにおける豊富な事前学習知識を活用し,適切に整合した部分特徴を生成するPrompt-Guided Feature Disentangling法(ProFD)を提案する。
ProFDはまず、部分特異的なプロンプトを設計し、ノイズセグメンテーションマスクを使用して、視覚とテキストの埋め込みを予め調整し、テキストのプロンプトが空間的認識を持つようにした。
さらに、外部マスクからのノイズを軽減するために、ProFDはハイブリッドアテンションデコーダを採用し、デコードプロセス中に空間的およびセマンティックな一貫性を確保し、ノイズの影響を最小限に抑える。
さらに,破滅的な忘れ物を避けるため,私たちはCLIPの事前学習知識を保ち,過度な適合を緩和する自己蒸留戦略を採用している。
Market1501、DukeMTMC-ReID、Occluded-Duke、Occluded-ReID、およびP-DukeMTMCデータセットの評価結果は、ProFDが最先端の結果を達成することを示す。
私たちのプロジェクトは、https://github.com/Cuixxx/ProFD.comで利用可能です。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Part-Attention Based Model Make Occluded Person Re-Identification Stronger [1.7648680700685022]
PAB-ReIDは,問題に効果的に対処するための部分認識機構を組み込んだ新しいReIDモデルである。
まず、より正確な人的部分注意マップの生成を導くために、人間のパーシングラベルを導入する。
また、背景干渉を抑えつつ、きめ細かい人間の局所的特徴表現を生成するための細粒度特徴焦点器を提案する。
論文 参考訳(メタデータ) (2024-04-04T13:43:11Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文 参考訳(メタデータ) (2024-02-16T03:53:30Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Occluded Person Re-Identification via Relational Adaptive Feature
Correction Learning [8.015703163954639]
複数のカメラが捉えた画像中の被写体再識別(Re-ID)は、歩行者や物体が被写体を隠蔽しているため困難である。
既存のほとんどの手法では、ネットワークを擬似ラベルとして利用しており、エラーを起こしやすい。
本稿では,Occlusion Correction Network (OCNet) を提案する。Occlusion Correction Network (OCNet) は,リレーショナル・ウェイト・ラーニングによって特徴を補正し,外部ネットワークを使わずに多様で代表的な特徴を得られる。
論文 参考訳(メタデータ) (2022-12-09T07:48:47Z) - Dynamic Feature Pruning and Consolidation for Occluded Person
Re-Identification [21.006680330530852]
本研究では, 明示的な人間の構造解析を回避するために, 機能解析・統合(FPC)フレームワークを提案する。
フレームワークは主にスパースエンコーダ、マルチビュー機能mathcingモジュール、フィーチャーコンソリデーションデコーダで構成されている。
提案手法は,Occluded-Dukeデータセットにおいて,少なくとも8.6% mAPと6.0% Rank-1の精度で最新結果より優れる。
論文 参考訳(メタデータ) (2022-11-27T06:18:40Z) - Quality-aware Part Models for Occluded Person Re-identification [77.24920810798505]
咬合は人体再識別(ReID)にとって大きな課題となる
既存のアプローチは一般的に、計算効率とReIDの精度の両面で最適であるように、目に見える身体の部品を推測するための外部ツールに依存している。
閉塞型ReIDのためのQPM(Quality-Aware Part Models)という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:51:09Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z) - Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。
実験結果から,提案手法は最先端手法と競合する性能を示した。
論文 参考訳(メタデータ) (2020-04-01T04:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。