論文の概要: Calibrating Cross-modal Features for Text-Based Person Searching
- arxiv url: http://arxiv.org/abs/2304.02278v2
- Date: Thu, 1 Jun 2023 01:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:56:47.509154
- Title: Calibrating Cross-modal Features for Text-Based Person Searching
- Title(参考訳): テキストに基づく人物検索のためのクロスモーダル特徴の校正
- Authors: Donglai Wei, Sipeng Zhang, Tong Yang, Yang Liu, Jing Liu
- Abstract要約: 本稿では,2つの視点から横断的特徴を校正する簡易かつ効果的な手法を提案する。
提案手法は,2つの新たな損失から成り,細粒度のクロスモーダルな特徴を提供する。
73.81%、74.25%、57.35%の精度で3つの人気のあるベンチマークで上位となる。
- 参考スコア(独自算出の注目度): 18.3145271655619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-Based Person Searching (TBPS) aims to identify the images of pedestrian
targets from a large-scale gallery with given textual caption. For cross-modal
TBPS task, it is critical to obtain well-distributed representation in the
common embedding space to reduce the inter-modal gap. Furthermore, it is also
essential to learn detailed image-text correspondence efficiently to
discriminate similar targets and enable fine-grained target search. To address
these challenges, we present a simple yet effective method that calibrates
cross-modal features from these two perspectives. Our method consists of two
novel losses to provide fine-grained cross-modal features. The Sew calibration
loss takes the quality of textual captions as guidance and aligns features
between image and text modalities. On the other hand, the Masking Caption
Modeling (MCM) loss leverages a masked captions prediction task to establish
detailed and generic relationships between textual and visual parts. The
proposed method is cost-effective and can easily retrieve specific persons with
textual captions. The architecture has only a dual-encoder without multi-level
branches or extra interaction modules, making a high-speed inference. Our
method achieves top results on three popular benchmarks with 73.81%, 74.25% and
57.35% Rank1 accuracy on the CUHK-PEDES, ICFG-PEDES, and RSTPReID,
respectively. We hope our scalable method will serve as a solid baseline and
help ease future research in TBPS. The code will be publicly available.
- Abstract(参考訳): テキストベースPerson Searching (TBPS) は,大規模ギャラリーからの歩行者対象の画像の特定を目的としている。
クロスモーダルなtbpsタスクでは、共通の埋め込み空間でよく分布した表現を得ることが重要であり、モーダル間ギャップを減少させる。
さらに,詳細な画像テキスト対応を効率的に学習し,類似したターゲットを識別し,きめ細かいターゲット探索を可能にすることも重要である。
これらの課題に対処するために,我々は,これらの2つの視点からクロスモーダルな特徴を包含する単純かつ効果的な手法を提案する。
本手法は,細粒度のクロスモーダル特性を提供するための2つの新しい損失からなる。
Sewキャリブレーションの損失は、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。
一方、マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを利用して、テキスト部品と視覚部品間の詳細かつ汎用的な関係を確立する。
提案手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。
アーキテクチャはマルチレベルブランチや余分なインタラクションモジュールを持たないデュアルエンコーダのみを持ち、高速推論を行う。
提案手法は, CUHK-PEDES, ICFG-PEDES, RSTPReIDにおいて, 73.81%, 74.25%, 57.35%の精度で3つのベンチマークの上位結果を得た。
当社のスケーラブルな手法が強固なベースラインとして機能し、TBPSの将来的な研究を容易にすることを願っています。
コードは公開される予定だ。
関連論文リスト
- Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval [29.838375158101027]
CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-29T13:02:35Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification [78.45528514468836]
ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
上記の問題に対処するために,Semantically Self-Aligned Network (SSAN)を提案する。
ICFG-PEDESという新しいデータベースを構築。
論文 参考訳(メタデータ) (2021-07-27T08:26:47Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。