論文の概要: Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval
- arxiv url: http://arxiv.org/abs/2311.16515v4
- Date: Tue, 20 May 2025 16:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:50.866413
- Title: Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval
- Title(参考訳): 構成者検索のための自動合成データと微粒化適応的特徴アライメント
- Authors: Delong Liu, Haiwen Li, Zhaohui Hou, Zhicheng Zhao, Fei Su, Yuan Dong,
- Abstract要約: 本稿では,大規模人物画像データベースから興味のある人物を特定するために,視覚的・テキスト的クエリを組み合わせた新しい人物検索タスクを提案する。
CPRタスクの最大の難しさは、利用可能な注釈付きデータセットがないことだ。
マルチモーダルフィルタリング法は、結果のSynCPRデータセットが1.15百万の高品質で完全な合成三重項を保持するように設計されている。
- 参考スコア(独自算出の注目度): 20.225737169253826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person retrieval has attracted rising attention. Existing methods are mainly divided into two retrieval modes, namely image-only and text-only. However, they are unable to make full use of the available information and are difficult to meet diverse application requirements. To address the above limitations, we propose a new Composed Person Retrieval (CPR) task, which combines visual and textual queries to identify individuals of interest from large-scale person image databases. Nevertheless, the foremost difficulty of the CPR task is the lack of available annotated datasets. Therefore, we first introduce a scalable automatic data synthesis pipeline, which decomposes complex multimodal data generation into the creation of textual quadruples followed by identity-consistent image synthesis using fine-tuned generative models. Meanwhile, a multimodal filtering method is designed to ensure the resulting SynCPR dataset retains 1.15 million high-quality and fully synthetic triplets. Additionally, to improve the representation of composed person queries, we propose a novel Fine-grained Adaptive Feature Alignment (FAFA) framework through fine-grained dynamic alignment and masked feature reasoning. Moreover, for objective evaluation, we manually annotate the Image-Text Composed Person Retrieval (ITCPR) test set. The extensive experiments demonstrate the effectiveness of the SynCPR dataset and the superiority of the proposed FAFA framework when compared with the state-of-the-art methods. All code and data will be provided at https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.
- Abstract(参考訳): 人の検索が注目を集めています。
既存の方法は、主に画像のみとテキストのみの2つの検索モードに分けられる。
しかし、利用可能な情報を十分に活用することができず、多様なアプリケーション要件を満たすことは困難である。
上記の制約に対処するため,大規模人物画像データベースから興味のある個人を特定するために,視覚的およびテキスト的クエリを組み合わせた新しい構成人検索タスクを提案する。
それでも、CPRタスクの最大の難しさは、利用可能な注釈付きデータセットの欠如である。
そこで我々はまず,複雑なマルチモーダルデータ生成をテキスト四重項生成に分解するスケーラブルな自動データ合成パイプラインを導入する。
一方、マルチモーダルフィルタリング法は、結果のSynCPRデータセットが1.15百万の高品質で完全な合成三重項を保持するように設計されている。
さらに, 合成された人物クエリの表現を改善するために, きめ細かな動的アライメントとマスク付き特徴推論により, FAFA(Fin-fine Adaptive Feature Alignment)フレームワークを提案する。
さらに、客観的評価のために、画像合成人検索(ITCPR)テストセットを手動で注釈付けする。
この実験は,SynCPRデータセットの有効性と,最先端手法と比較して提案したFAFAフレームワークの優位性を示すものである。
すべてのコードとデータはhttps://github.com/Delong-liu-bupt/Composed_Person_Retrievalで提供される。
関連論文リスト
- Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - Data Augmentation for Text-based Person Retrieval Using Large Language Models [16.120524750964016]
テキストベースのPerson Retrieval (TPR)は、テキストクエリが与えられた記述と一致する人物画像の検索を目的としている。
高価なアノテーションとプライバシー保護のため、大規模で高品質なTPRデータセットを構築するのは難しい。
本稿では,TPRのためのLLM-DA法を提案する。
論文 参考訳(メタデータ) (2024-05-20T11:57:50Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Unified Pre-training with Pseudo Texts for Text-To-Image Person
Re-identification [42.791647210424664]
事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。
これら2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。
本稿では,T2I-ReIDタスクに特化して設計された統合事前学習パイプライン(UniPT)を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:11:36Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。