論文の概要: DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval
- arxiv url: http://arxiv.org/abs/2405.07459v1
- Date: Mon, 13 May 2024 04:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:54:35.745828
- Title: DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval
- Title(参考訳): DualFocus: テキストベースの人物検索における肯定的および否定的記述子の統合フレームワーク
- Authors: Yuchuan Deng, Zhanpeng Hu, Jiakun Han, Chuang Deng, Qijun Zhao,
- Abstract要約: 肯定的および否定的な記述子を統合するためのフレームワークであるDualFocusを紹介する。
トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。
実験結果は、CUHK-PEDES, ICFG-PEDES, RSTPReidにおけるDualFocusの優れた性能を強調した。
- 参考スコア(独自算出の注目度): 6.381155145404096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based person retrieval (TPR) aims to retrieve images of a person from an extensive array of candidates based on a given textual description. The core challenge lies in mapping visual and textual data into a unified latent space. While existing TPR methods concentrate on recognizing explicit and positive characteristics, they often neglect the critical influence of negative descriptors, resulting in potential false positives that fulfill positive criteria but could be excluded by negative descriptors. To alleviate these issues, we introduce DualFocus, a unified framework for integrating positive and negative descriptors to enhance the interpretative accuracy of vision-language foundational models regarding textual queries. DualFocus employs Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which integrates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning. This way DualFocus enhances the detection of unseen attributes, thereby boosting retrieval precision. To further achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby enhancing the matching process through a detailed and adaptable similarity assessment. By focusing on token-level comparisons, DualFocus significantly outperforms existing techniques in both precision and robustness. The experiment results highlight DualFocus's superior performance on CUHK-PEDES, ICFG-PEDES, and RSTPReid.
- Abstract(参考訳): テキストベースの人物検索(TPR)は、与えられたテキスト記述に基づいて、広範囲の候補から人物の画像を検索することを目的としている。
主な課題は、視覚的およびテキスト的データを統一された潜在空間にマッピングすることである。
既存のTPR法は明示的および肯定的な特徴を認識することに重点を置いているが、それらはしばしば負の記述子の批判的な影響を無視し、正の基準を満たすが負の記述子によって除外される可能性のある偽陽性をもたらす。
これらの問題を緩和するため,テキストクエリに関する視覚言語基礎モデルの解釈精度を高めるために,肯定的および否定的記述子を統合する統合フレームワークであるDualFocusを導入する。
DualFocusはDual (Positive/Negative) Attribute Prompt Learning (DAPL)を採用しており、Dual Image-Attribute Contrastive (DIAC) LearningとSensitive Image-Attributes Matching (SIAM) Learningを統合している。
この方法でDualFocusは未確認属性の検出を強化し、検索精度を向上する。
視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを改善するために,マッチング記述と非マッチング記述の両方の表現を洗練し,詳細かつ適応可能な類似性評価によってマッチングプロセスを向上するダイナミック・トケンワイズ・類似性(DTS)損失を提案する。
トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。
実験結果は、CUHK-PEDES、ICFG-PEDES、RSTPReidにおけるDualFocusの優れたパフォーマンスを強調した。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - RaSa: Relation and Sensitivity Aware Representation Learning for
Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。
RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。
実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文 参考訳(メタデータ) (2023-05-23T03:53:57Z) - Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior
Understanding [12.509298933267221]
本稿では,顔行動理解のための2段階のコントラスト学習フレームワークについて紹介する。
第1段階は、粗い活動情報を用いて構築された正負の対から表現を学習する、弱教師付きコントラスト学習法である。
第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔の動作単位の認識を訓練することを目的としている。
論文 参考訳(メタデータ) (2023-03-31T18:21:09Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文 参考訳(メタデータ) (2022-08-22T09:45:34Z) - Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。
実験結果から,提案手法は最先端手法と競合する性能を示した。
論文 参考訳(メタデータ) (2020-04-01T04:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。