論文の概要: Calibrating Cross-modal Feature for Text-Based Person Searching
- arxiv url: http://arxiv.org/abs/2304.02278v1
- Date: Wed, 5 Apr 2023 07:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:11:04.335999
- Title: Calibrating Cross-modal Feature for Text-Based Person Searching
- Title(参考訳): テキストに基づく人物検索のためのクロスモーダル特徴の校正
- Authors: Donglai Wei, Sipeng Zhang, Tong Yang, Jing Liu
- Abstract要約: 本稿では,テキストに基づく人物検索のためのクロスモーダルな特徴の校正手法を提案する。
アーキテクチャはデュアルエンコーダと分離可能なクロスモーダルデコーダのみである。
CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。
- 参考スコア(独自算出の注目度): 15.289009253607292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel and effective method calibrating cross-modal features for
text-based person search. Our method is cost-effective and can easily retrieve
specific persons with textual captions. Specifically, its architecture is only
a dual-encoder and a detachable cross-modal decoder. Without extra multi-level
branches or complex interaction modules as the neck following the backbone, our
model makes a high-speed inference only based on the dual-encoder. Besides, our
method consists of two novel losses to provide fine-grained cross-modal
features. A Sew loss takes the quality of textual captions as guidance and
aligns features between image and text modalities. A Masking Caption Modeling
(MCM) loss uses a masked captions prediction task to establish detailed and
generic relationships between textual and visual parts. We show the top results
in three popular benchmarks, including CUHK-PEDES, ICFG-PEDES, and RSTPReID. In
particular, our method achieves 73.81% Rank@1, 74.25% Rank@1 and 57.35% Rank@1
on them, respectively. In addition, we also validate each component of our
method with extensive experiments. We hope our powerful and scalable paradigm
will serve as a solid baseline and help ease future research in text-based
person search.
- Abstract(参考訳): 本稿では,テキストに基づく人物探索のためのクロスモーダル特徴の校正手法を提案する。
本手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。
具体的には、dual-encoderとdetachable cross-modal decoderのみである。
バックボーンを追従するネックとして、余分なマルチレベル分岐や複雑な相互作用モジュールがなければ、我々のモデルはデュアルエンコーダのみに基づいて高速な推論を行う。
さらに,本手法は2つの新たな損失から成り,細粒度のクロスモーダル特性を提供する。
Sew Losは、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。
マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを使用して、テキスト部品と視覚部品との間の詳細かつ汎用的な関係を確立する。
CUHK-PEDES, ICFG-PEDES, RSTPReID の3つのベンチマークで上位結果を示す。
特に, 73.81% Rank@1, 74.25% Rank@1, 57.35% Rank@1を達成した。
さらに,本手法の各成分を広範囲な実験により検証する。
当社の強力でスケーラブルなパラダイムが、堅固なベースラインとして機能し、テキストベースの人物検索における将来の研究を容易にすることを願っています。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model
via Cross-modal Alignment [2.389598109913754]
我々は,多くの画像分類タスクにおいて高い精度を実現するオープン語彙基盤モデルであるContrastive Language- Image Pre-training (CLIP) に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像のモダリティを整合させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。
私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文 参考訳(メタデータ) (2022-01-20T12:05:10Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。