論文の概要: DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval
- arxiv url: http://arxiv.org/abs/2405.07459v1
- Date: Mon, 13 May 2024 04:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:54:35.745828
- Title: DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval
- Title(参考訳): DualFocus: テキストベースの人物検索における肯定的および否定的記述子の統合フレームワーク
- Authors: Yuchuan Deng, Zhanpeng Hu, Jiakun Han, Chuang Deng, Qijun Zhao,
- Abstract要約: 肯定的および否定的な記述子を統合するためのフレームワークであるDualFocusを紹介する。
トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。
実験結果は、CUHK-PEDES, ICFG-PEDES, RSTPReidにおけるDualFocusの優れた性能を強調した。
- 参考スコア(独自算出の注目度): 6.381155145404096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based person retrieval (TPR) aims to retrieve images of a person from an extensive array of candidates based on a given textual description. The core challenge lies in mapping visual and textual data into a unified latent space. While existing TPR methods concentrate on recognizing explicit and positive characteristics, they often neglect the critical influence of negative descriptors, resulting in potential false positives that fulfill positive criteria but could be excluded by negative descriptors. To alleviate these issues, we introduce DualFocus, a unified framework for integrating positive and negative descriptors to enhance the interpretative accuracy of vision-language foundational models regarding textual queries. DualFocus employs Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which integrates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning. This way DualFocus enhances the detection of unseen attributes, thereby boosting retrieval precision. To further achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby enhancing the matching process through a detailed and adaptable similarity assessment. By focusing on token-level comparisons, DualFocus significantly outperforms existing techniques in both precision and robustness. The experiment results highlight DualFocus's superior performance on CUHK-PEDES, ICFG-PEDES, and RSTPReid.
- Abstract(参考訳): テキストベースの人物検索(TPR)は、与えられたテキスト記述に基づいて、広範囲の候補から人物の画像を検索することを目的としている。
主な課題は、視覚的およびテキスト的データを統一された潜在空間にマッピングすることである。
既存のTPR法は明示的および肯定的な特徴を認識することに重点を置いているが、それらはしばしば負の記述子の批判的な影響を無視し、正の基準を満たすが負の記述子によって除外される可能性のある偽陽性をもたらす。
これらの問題を緩和するため,テキストクエリに関する視覚言語基礎モデルの解釈精度を高めるために,肯定的および否定的記述子を統合する統合フレームワークであるDualFocusを導入する。
DualFocusはDual (Positive/Negative) Attribute Prompt Learning (DAPL)を採用しており、Dual Image-Attribute Contrastive (DIAC) LearningとSensitive Image-Attributes Matching (SIAM) Learningを統合している。
この方法でDualFocusは未確認属性の検出を強化し、検索精度を向上する。
視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを改善するために,マッチング記述と非マッチング記述の両方の表現を洗練し,詳細かつ適応可能な類似性評価によってマッチングプロセスを向上するダイナミック・トケンワイズ・類似性(DTS)損失を提案する。
トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。
実験結果は、CUHK-PEDES、ICFG-PEDES、RSTPReidにおけるDualFocusの優れたパフォーマンスを強調した。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - RaSa: Relation and Sensitivity Aware Representation Learning for
Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。
RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。
実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文 参考訳(メタデータ) (2023-05-23T03:53:57Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition [14.815422751109061]
コンテキストバイアスをより制御可能な方法でサポートするCIF(Continuous Integration-and-fire)ベースのモデルを提案する。
追加のコンテキスト処理ネットワークを導入し、コンテキスト埋め込みを抽出し、音響的に関連するコンテキスト情報を統合し、コンテキスト出力分布をデコードする。
提案手法は, 強ベースラインと比較して, 相対的文字誤り率 (CER) の8.83%/21.13%, 相対的名前付きエンティティ文字誤り率 (NE-CER) の40.14%/51.50%削減を実現する。
論文 参考訳(メタデータ) (2020-12-17T09:40:11Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。