Fugu-MT 論文翻訳(概要): DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval

論文の概要: DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval

arxiv url: http://arxiv.org/abs/2405.07459v1
Date: Mon, 13 May 2024 04:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 14:54:35.745828
Title: DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval
Title（参考訳）: DualFocus: テキストベースの人物検索における肯定的および否定的記述子の統合フレームワーク
Authors: Yuchuan Deng, Zhanpeng Hu, Jiakun Han, Chuang Deng, Qijun Zhao,
Abstract要約: 肯定的および否定的な記述子を統合するためのフレームワークであるDualFocusを紹介する。トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。実験結果は、CUHK-PEDES, ICFG-PEDES, RSTPReidにおけるDualFocusの優れた性能を強調した。
参考スコア（独自算出の注目度）: 6.381155145404096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based person retrieval (TPR) aims to retrieve images of a person from an extensive array of candidates based on a given textual description. The core challenge lies in mapping visual and textual data into a unified latent space. While existing TPR methods concentrate on recognizing explicit and positive characteristics, they often neglect the critical influence of negative descriptors, resulting in potential false positives that fulfill positive criteria but could be excluded by negative descriptors. To alleviate these issues, we introduce DualFocus, a unified framework for integrating positive and negative descriptors to enhance the interpretative accuracy of vision-language foundational models regarding textual queries. DualFocus employs Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which integrates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning. This way DualFocus enhances the detection of unseen attributes, thereby boosting retrieval precision. To further achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby enhancing the matching process through a detailed and adaptable similarity assessment. By focusing on token-level comparisons, DualFocus significantly outperforms existing techniques in both precision and robustness. The experiment results highlight DualFocus's superior performance on CUHK-PEDES, ICFG-PEDES, and RSTPReid.
Abstract（参考訳）: テキストベースの人物検索(TPR)は、与えられたテキスト記述に基づいて、広範囲の候補から人物の画像を検索することを目的としている。主な課題は、視覚的およびテキスト的データを統一された潜在空間にマッピングすることである。既存のTPR法は明示的および肯定的な特徴を認識することに重点を置いているが、それらはしばしば負の記述子の批判的な影響を無視し、正の基準を満たすが負の記述子によって除外される可能性のある偽陽性をもたらす。これらの問題を緩和するため,テキストクエリに関する視覚言語基礎モデルの解釈精度を高めるために,肯定的および否定的記述子を統合する統合フレームワークであるDualFocusを導入する。 DualFocusはDual (Positive/Negative) Attribute Prompt Learning (DAPL)を採用しており、Dual Image-Attribute Contrastive (DIAC) LearningとSensitive Image-Attributes Matching (SIAM) Learningを統合している。この方法でDualFocusは未確認属性の検出を強化し、検索精度を向上する。視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを改善するために,マッチング記述と非マッチング記述の両方の表現を洗練し,詳細かつ適応可能な類似性評価によってマッチングプロセスを向上するダイナミック・トケンワイズ・類似性(DTS)損失を提案する。トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。実験結果は、CUHK-PEDES、ICFG-PEDES、RSTPReidにおけるDualFocusの優れたパフォーマンスを強調した。

関連論文リスト

Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文参考訳（メタデータ） (2025-08-06T02:44:08Z)
OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。 T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。 MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文参考訳（メタデータ） (2025-06-12T11:09:49Z)
Descriptive Image-Text Matching with Graded Contextual Similarity [41.10869519062159]
画像とテキストの文脈的類似度を段階的に学習するために,DITMと呼ばれる記述的画像テキストマッチングを提案する。各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、両者の相似性をバランスさせる。本手法は文記述性を利用して,2つの重要な方法で堅牢な画像テキストマッチングを学習する。
論文参考訳（メタデータ） (2025-05-15T06:21:00Z)
CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文参考訳（メタデータ） (2025-03-31T10:17:01Z)
Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文参考訳（メタデータ） (2023-08-19T05:34:13Z)
DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。 Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文参考訳（メタデータ） (2023-08-03T17:33:20Z)
PV2TEA: Patching Visual Modality to Textual-Established Information Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。 PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文参考訳（メタデータ） (2023-06-01T05:39:45Z)
RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。 RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文参考訳（メタデータ） (2023-05-23T03:53:57Z)
Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior Understanding [12.509298933267221]
本稿では,顔行動理解のための2段階のコントラスト学習フレームワークについて紹介する。第1段階は、粗い活動情報を用いて構築された正負の対から表現を学習する、弱教師付きコントラスト学習法である。第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔の動作単位の認識を訓練することを目的としている。
論文参考訳（メタデータ） (2023-03-31T18:21:09Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。 1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文参考訳（メタデータ） (2022-08-22T09:45:34Z)
Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。実験結果から,提案手法は最先端手法と競合する性能を示した。
論文参考訳（メタデータ） (2020-04-01T04:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。