論文の概要: SCMM: Calibrating Cross-modal Representations for Text-Based Person Search
- arxiv url: http://arxiv.org/abs/2304.02278v3
- Date: Thu, 17 Oct 2024 08:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:21.310334
- Title: SCMM: Calibrating Cross-modal Representations for Text-Based Person Search
- Title(参考訳): SCMM:テキストに基づく人物検索のためのクロスモーダル表現の校正
- Authors: Jing Liu, Donglai Wei, Yang Liu, Sipeng Zhang, Tong Yang, Victor C. M. Leung,
- Abstract要約: テキスト・ベース・パーソナリティ・サーチ(TBPS)は,大規模ギャラリーから対象人物の正確な検索を可能にする重要なタスクである。
クロスモーダルTBPSタスクでは、共通埋め込み空間において、よく分散された表現を得ることが重要である。
本稿では,Sew and Masked Modeling (SCMM) という手法を提案する。
- 参考スコア(独自算出の注目度): 43.17325362167387
- License:
- Abstract: Text-Based Person Search (TBPS) is a crucial task that enables accurate retrieval of target individuals from large-scale galleries with only given textual caption. For cross-modal TBPS tasks, it is critical to obtain well-distributed representation in the common embedding space to reduce the inter-modal gap. Furthermore, learning detailed image-text correspondences is essential to discriminate similar targets and enable fine-grained search. To address these challenges, we present a simple yet effective method named Sew Calibration and Masked Modeling (SCMM) that calibrates cross-modal representations by learning compact and well-aligned embeddings. SCMM is distinguished by two novel losses to provide fine-grained cross-modal representations: 1) a Sew calibration loss that takes the quality of textual captions as guidance and aligns features between image and text modalities, and 2) a Masked Caption Modeling (MCM) loss that leverages a masked caption prediction task to establish detailed and generic relationships between textual and visual parts. The dual-pronged strategy refines feature alignment and enriches cross-modal correspondences, enabling the accurate distinction of similar individuals. Consequently, its streamlined dual-encoder architecture avoids complex branches and interactions and facilitates high-speed inference suitable for real-time requirements. Consequently, high-speed inference is achieved, which is essential for resource-limited applications often demanding real-time processing. Extensive experiments on three popular TBPS benchmarks demonstrate the superiority of SCMM, achieving top results with 73.81%, 74.25%, and 57.35% Rank-1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReID, respectively. We hope SCMM's scalable and cost-effective design will serve as a strong baseline and facilitate future research in this field.
- Abstract(参考訳): テキスト・ベース・パーソナリティ・サーチ(TBPS)は,大規模ギャラリーから対象人物の正確な検索を可能にする重要なタスクである。
クロスモーダルTBPSタスクでは、共通埋め込み空間において、モダル間ギャップを低減するために、よく分散された表現を得ることが重要である。
さらに、類似したターゲットを識別し、きめ細かい検索を可能にするためには、詳細な画像テキスト対応の学習が不可欠である。
これらの課題に対処するために,Sew Calibration and Masked Modeling (SCMM) というシンプルな手法を提案する。
SCMMは2つの新しい損失によって区別され、細粒度のクロスモーダル表現を提供する。
1)文字キャプションの質を指導として、画像とテキストのモダリティの特徴を調整した下級校正損失
2) マスク付きキャプション予測タスクを利用して, テキストと視覚部品の詳細な, 汎用的な関係を確立するマスク付きキャプションモデリング(MCM)の損失について検討した。
二重進行戦略は特徴アライメントを洗練させ、類似した個体の正確な識別を可能にする。
そのため、その合理化されたデュアルエンコーダアーキテクチャは複雑な分岐や相互作用を回避し、リアルタイム要求に適した高速推論を容易にする。
その結果、リアルタイム処理を必要とするリソース制限されたアプリケーションには、高速な推論が不可欠である。
3つの一般的なTBPSベンチマークの大規模な実験は、SCMMの優位性を示し、CUHK-PEDES、ICFG-PEDES、RSTPReIDでそれぞれ73.81%、74.25%、57.35%のランク-1の精度を達成した。
SCMMのスケーラブルで費用対効果の高い設計が強力なベースラインとして役立ち、この分野の将来的な研究を促進することを願っている。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。