論文の概要: CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2401.10011v1
- Date: Thu, 18 Jan 2024 14:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:24:53.354464
- Title: CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification
- Title(参考訳): cpcl:弱い教師付きテキストに基づく人物再同定のためのクロスモーダル型コントラスト学習
- Authors: Yanwei Zheng, Xinpeng Zhao, Chuanlin Lan, Xiaowei Zhang, Bowen Huang,
Jibin Yang, Dongxiao Yu
- Abstract要約: 弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
- 参考スコア(独自算出の注目度): 10.64115914599574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised text-based person re-identification (TPRe-ID) seeks to
retrieve images of a target person using textual descriptions, without relying
on identity annotations and is more challenging and practical. The primary
challenge is the intra-class differences, encompassing intra-modal feature
variations and cross-modal semantic gaps. Prior works have focused on
instance-level samples and ignored prototypical features of each person which
are intrinsic and invariant. Toward this, we propose a Cross-Modal Prototypical
Contrastive Learning (CPCL) method. In practice, the CPCL introduces the CLIP
model to weakly supervised TPRe-ID for the first time, mapping visual and
textual instances into a shared latent space. Subsequently, the proposed
Prototypical Multi-modal Memory (PMM) module captures associations between
heterogeneous modalities of image-text pairs belonging to the same person
through the Hybrid Cross-modal Matching (HCM) module in a many-to-many mapping
fashion. Moreover, the Outlier Pseudo Label Mining (OPLM) module further
distinguishes valuable outlier samples from each modality, enhancing the
creation of more reliable clusters by mining implicit relationships between
image-text pairs. Experimental results demonstrate that our proposed CPCL
attains state-of-the-art performance on all three public datasets, with a
significant improvement of 11.58%, 8.77% and 5.25% in Rank@1 accuracy on
CUHK-PEDES, ICFG-PEDES and RSTPReid datasets, respectively. The code is
available at https://github.com/codeGallery24/CPCL.
- Abstract(参考訳): TPRe-ID (Weakly supervised text-based person re-identification) は、個人識別アノテーションに頼ることなく、テキスト記述を用いて対象者の画像を取得することを目的としており、より困難で実用的なものである。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとクロスモーダルセマンティクスギャップを包含する。
先行研究はインスタンスレベルのサンプルに注目しており、内在的かつ不変な各人の原型的特徴を無視している。
そこで本研究では,CPCL(Cross-Modal Prototypeal Contrastive Learning)法を提案する。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
提案したPMMモジュールは,Hybrid Cross-modal Matching(HCM)モジュールを多対多のマッピング方式で,同一人物に属する画像テキストペアの不均一なモダリティの関連を捉える。
さらに、OPLM(Outlier Pseudo Label Mining)モジュールは、画像とテキストのペア間の暗黙的な関係をマイニングすることによって、より信頼性の高いクラスタの作成を促進する。
実験の結果,提案したCPCLは,CUHK-PEDES,ICFG-PEDES,RSTPReidの3つの公開データセットに対して,それぞれ11.58%,8.77%,5.25%の精度向上を実現した。
コードはhttps://github.com/codeGallery24/CPCLで入手できる。
関連論文リスト
- CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training [17.27516384073838]
本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。
CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
論文 参考訳(メタデータ) (2024-10-16T14:12:26Z) - Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification [30.983346937558743]
USL-VI-ReIDの主な課題は、擬似ラベルを効果的に生成し、擬似ラベル対応を確立することである。
我々はUSL-VI-ReIDのためのマルチメモリマッチングフレームワークを提案する。
公開SYSU-MM01とRegDBデータセットの実験は、確立された相互モダリティ対応の信頼性を示す。
論文 参考訳(メタデータ) (2024-01-12T01:24:04Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - End-to-End Context-Aided Unicity Matching for Person Re-identification [100.02321122258638]
本稿では,人間同士の一致関係を学習・精査するための,エンドツーエンドの対人一意整合アーキテクチャを提案する。
サンプルのグローバルコンテキスト関係を用いて,ソフトマッチング結果を洗練し,両部グラフマッチングにより一致ユニシティに到達する。
実世界における人物再識別の応用を十分に考慮し, ワンショットとマルチショットの双方で一様マッチングを実現する。
論文 参考訳(メタデータ) (2022-10-20T07:33:57Z) - InsCon:Instance Consistency Feature Representation via Self-Supervised
Learning [9.416267640069297]
InsConという,マルチインスタンス情報を取得するための,エンドツーエンドの自己管理フレームワークを提案する。
InsConは、マルチインスタンスイメージを入力として適用し、学習した機能を対応するインスタンスビュー間で整合させるターゲット学習パラダイムを構築している。
一方、InsConでは、セルの一貫性を利用して微細な特徴表現を強化するセルインスタンスのプルとプッシュを導入している。
論文 参考訳(メタデータ) (2022-03-15T07:09:00Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。