論文の概要: Word4Per: Zero-shot Composed Person Retrieval
- arxiv url: http://arxiv.org/abs/2311.16515v3
- Date: Mon, 25 Nov 2024 18:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:19.069620
- Title: Word4Per: Zero-shot Composed Person Retrieval
- Title(参考訳): Word4Per:ゼロショット構成の人物検索
- Authors: Delong Liu, Haiwen Li, Zhicheng Zhao, Fei Su, Yuan Dong,
- Abstract要約: CPR(Composeed Person Retrieval)と呼ばれる新しいタスクが提案され、画像情報とテキスト情報を併用して対象人物の検索を行う。
管理されたCPRには、非常にコストのかかる手動のアノテーションデータセットが必要ですが、現在利用可能なリソースはありません。
本稿では,2段階学習フレームワークであるWord4Perを提案する。このフレームワークでは,軽量テキスト変換ネットワーク(TINet)と微調整コントラスト言語-画像事前学習(CLIP)ネットワークに基づくテキストベースの人物検索モデルが学習される。
- 参考スコア(独自算出の注目度): 19.905253435711856
- License:
- Abstract: Searching for specific person has great social benefits and security value, and it often involves a combination of visual and textual information. Conventional person retrieval methods, whether image-based or text-based, usually fall short in effectively harnessing both types of information, leading to the loss of accuracy. In this paper, a whole new task called Composed Person Retrieval (CPR) is proposed to jointly utilize both image and text information for target person retrieval. However, the supervised CPR requires very costly manual annotation dataset, while there are currently no available resources. To mitigate this issue, we firstly introduce the Zero-shot Composed Person Retrieval (ZS-CPR), which leverages existing domain-related data to resolve the CPR problem without expensive annotations. Secondly, to learn ZS-CPR model, we propose a two-stage learning framework, Word4Per, where a lightweight Textual Inversion Network (TINet) and a text-based person retrieval model based on fine-tuned Contrastive Language-Image Pre-training (CLIP) network are learned without utilizing any CPR data. Thirdly, a finely annotated Image-Text Composed Person Retrieval (ITCPR) dataset is built as the benchmark to assess the performance of the proposed Word4Per framework. Extensive experiments under both Rank-1 and mAP demonstrate the effectiveness of Word4Per for the ZS-CPR task, surpassing the comparative methods by over 10\%. The code and ITCPR dataset will be publicly available at https://github.com/Delong-liu-bupt/Word4Per.
- Abstract(参考訳): 特定の人物の検索には大きな社会的利益とセキュリティ上の価値があり、視覚情報とテキスト情報の組み合わせが伴うことが多い。
従来の人物検索手法は、画像ベースでもテキストベースでも、どちらのタイプの情報も効果的に活用できないため、精度が低下する。
本稿では,対象人物検索に画像情報とテキスト情報を併用するCPR(Composted Person Retrieval)を提案する。
しかし、教師付きCPRは、現在利用可能なリソースはないが、非常にコストのかかる手動のアノテーションデータセットを必要とする。
この問題を緩和するために、我々はまずZero-shot Composed Person Retrieval (ZS-CPR)を導入します。
第2に、ZS-CPRモデルを学習するために、軽量テキスト変換ネットワーク(TINet)と微調整コントラスト言語-画像事前学習(CLIP)ネットワークに基づくテキストベースの人物検索モデルをCPRデータを活用することなく学習する2段階学習フレームワーク、Word4Perを提案する。
第3に、提案したWord4Perフレームワークのパフォーマンスを評価するベンチマークとして、微妙に注釈付けされたイメージテキスト構成者検索(ITCPR)データセットが構築されている。
Rank-1 と mAP を併用した大規模な実験では、Word4Per が ZS-CPR タスクに有効であることを示し、比較手法を 10 % 以上上回った。
コードとTCPRデータセットはhttps://github.com/Delong-liu-bupt/Word4Perで公開される。
関連論文リスト
- Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - Data Augmentation for Text-based Person Retrieval Using Large Language Models [16.120524750964016]
テキストベースのPerson Retrieval (TPR)は、テキストクエリが与えられた記述と一致する人物画像の検索を目的としている。
高価なアノテーションとプライバシー保護のため、大規模で高品質なTPRデータセットを構築するのは難しい。
本稿では,TPRのためのLLM-DA法を提案する。
論文 参考訳(メタデータ) (2024-05-20T11:57:50Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Unified Pre-training with Pseudo Texts for Text-To-Image Person
Re-identification [42.791647210424664]
事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。
これら2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。
本稿では,T2I-ReIDタスクに特化して設計された統合事前学習パイプライン(UniPT)を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:11:36Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。