論文の概要: Calibrating Cross-modal Feature for Text-Based Person Searching
- arxiv url: http://arxiv.org/abs/2304.02278v1
- Date: Wed, 5 Apr 2023 07:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:11:04.335999
- Title: Calibrating Cross-modal Feature for Text-Based Person Searching
- Title(参考訳): テキストに基づく人物検索のためのクロスモーダル特徴の校正
- Authors: Donglai Wei, Sipeng Zhang, Tong Yang, Jing Liu
- Abstract要約: 本稿では,テキストに基づく人物検索のためのクロスモーダルな特徴の校正手法を提案する。
アーキテクチャはデュアルエンコーダと分離可能なクロスモーダルデコーダのみである。
CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。
- 参考スコア(独自算出の注目度): 15.289009253607292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel and effective method calibrating cross-modal features for
text-based person search. Our method is cost-effective and can easily retrieve
specific persons with textual captions. Specifically, its architecture is only
a dual-encoder and a detachable cross-modal decoder. Without extra multi-level
branches or complex interaction modules as the neck following the backbone, our
model makes a high-speed inference only based on the dual-encoder. Besides, our
method consists of two novel losses to provide fine-grained cross-modal
features. A Sew loss takes the quality of textual captions as guidance and
aligns features between image and text modalities. A Masking Caption Modeling
(MCM) loss uses a masked captions prediction task to establish detailed and
generic relationships between textual and visual parts. We show the top results
in three popular benchmarks, including CUHK-PEDES, ICFG-PEDES, and RSTPReID. In
particular, our method achieves 73.81% Rank@1, 74.25% Rank@1 and 57.35% Rank@1
on them, respectively. In addition, we also validate each component of our
method with extensive experiments. We hope our powerful and scalable paradigm
will serve as a solid baseline and help ease future research in text-based
person search.
- Abstract(参考訳): 本稿では,テキストに基づく人物探索のためのクロスモーダル特徴の校正手法を提案する。
本手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。
具体的には、dual-encoderとdetachable cross-modal decoderのみである。
バックボーンを追従するネックとして、余分なマルチレベル分岐や複雑な相互作用モジュールがなければ、我々のモデルはデュアルエンコーダのみに基づいて高速な推論を行う。
さらに,本手法は2つの新たな損失から成り,細粒度のクロスモーダル特性を提供する。
Sew Losは、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。
マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを使用して、テキスト部品と視覚部品との間の詳細かつ汎用的な関係を確立する。
CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。
特に, 73.81% Rank@1, 74.25% Rank@1, 57.35% Rank@1を達成した。
さらに,本手法の各成分を広範囲な実験により検証する。
当社の強力でスケーラブルなパラダイムが、堅固なベースラインとして機能し、テキストベースの人物検索における将来の研究を容易にすることを願っています。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。