Fugu-MT 論文翻訳(概要): DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification

論文の概要: DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification

arxiv url: http://arxiv.org/abs/2405.07459v2
Date: Fri, 16 Aug 2024 10:53:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 20:02:45.987430
Title: DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification
Title（参考訳）: DualFocus: テキストに基づく人物再識別における可塑性記述の統合
Authors: Yuchuan Deng, Zhanpeng Hu, Jiakun Han, Chuang Deng, Qijun Zhao,
Abstract要約: 我々は、パーソナライゼーションタスクにおける視覚言語モデルの解釈精度を高めるために、もっともらしい記述を統合する統合フレームワークであるDualFocusを紹介する。視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを実現するために,DTS(Dynamic Tokenwise similarity)損失を提案する。 The comprehensive experiment on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus shows superior performance than the State-of-the-art method。
参考スコア（独自算出の注目度）: 6.381155145404096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based Person Re-identification (TPR) aims to retrieve specific individual images from datasets based on textual descriptions. Existing TPR methods primarily focus on recognizing explicit and positive characteristics, often overlooking the role of negative descriptions. This oversight can lead to false positives-images that meet positive criteria but should be excluded based on negative descriptions. To address these limitations, we introduce DualFocus, a unified framework that integrates plausible descriptions to enhance the interpretative accuracy of vision-language models in TPR tasks. DualFocus leverages Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which incorporates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning, enabling the detection of non-existent attributes and reducing false positives. To achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby improving the matching process through detailed and adaptable similarity assessments. The comprehensive experiments on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus demonstrates superior performance over state-of-the-art methods, significantly enhancing both precision and robustness in TPR.
Abstract（参考訳）: テキストベースのPerson Re-identification (TPR)は、テキスト記述に基づいてデータセットから特定の個々の画像を取得することを目的としている。既存のTPR手法は主に明示的で肯定的な特徴を認識することに焦点を当てており、しばしば否定的な記述の役割を見落としている。この監視は、肯定的な基準を満たすが否定的な記述に基づいて除外されるべき偽の肯定的なイメージにつながる可能性がある。これらの制約に対処するため、我々は、TPRタスクにおける視覚言語モデルの解釈精度を高めるために、もっともらしい記述を統合する統合フレームワークであるDualFocusを紹介した。 DualFocusは、Dual (Positive/Negative) Attribute Prompt Learning (DAPL)を活用し、Dual Image-Attribute Contrastive (DIAC) LearningとSensitive Image-Attributes Matching (SIAM) Learningを組み込んだ。視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスをとるために,マッチング記述と非マッチング記述の両方の表現を洗練し,詳細かつ適応可能な類似性評価によってマッチングプロセスを改善する動的トークンワイド類似性(DTS)損失を提案する。 The comprehensive experiment on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus demonstrates superior performance than State-of-the-art method, significantly enhance both precision and robustness in TPR。

関連論文リスト

Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文参考訳（メタデータ） (2025-08-06T02:44:08Z)
OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。 T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。 MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文参考訳（メタデータ） (2025-06-12T11:09:49Z)
Descriptive Image-Text Matching with Graded Contextual Similarity [41.10869519062159]
画像とテキストの文脈的類似度を段階的に学習するために,DITMと呼ばれる記述的画像テキストマッチングを提案する。各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、両者の相似性をバランスさせる。本手法は文記述性を利用して,2つの重要な方法で堅牢な画像テキストマッチングを学習する。
論文参考訳（メタデータ） (2025-05-15T06:21:00Z)
CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文参考訳（メタデータ） (2025-03-31T10:17:01Z)
Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文参考訳（メタデータ） (2023-08-19T05:34:13Z)
DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。 Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文参考訳（メタデータ） (2023-08-03T17:33:20Z)
PV2TEA: Patching Visual Modality to Textual-Established Information Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。 PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文参考訳（メタデータ） (2023-06-01T05:39:45Z)
RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。 RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文参考訳（メタデータ） (2023-05-23T03:53:57Z)
Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior Understanding [12.509298933267221]
本稿では,顔行動理解のための2段階のコントラスト学習フレームワークについて紹介する。第1段階は、粗い活動情報を用いて構築された正負の対から表現を学習する、弱教師付きコントラスト学習法である。第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔の動作単位の認識を訓練することを目的としている。
論文参考訳（メタデータ） (2023-03-31T18:21:09Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。 1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文参考訳（メタデータ） (2022-08-22T09:45:34Z)
Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。実験結果から,提案手法は最先端手法と競合する性能を示した。
論文参考訳（メタデータ） (2020-04-01T04:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。