論文の概要: Unified Pre-training with Pseudo Texts for Text-To-Image Person
Re-identification
- arxiv url: http://arxiv.org/abs/2309.01420v1
- Date: Mon, 4 Sep 2023 08:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:34:34.472032
- Title: Unified Pre-training with Pseudo Texts for Text-To-Image Person
Re-identification
- Title(参考訳): テキスト・ツー・イメージ人物識別のための擬似テキストの統合事前学習
- Authors: Zhiyin Shao, Xinyu Zhang, Changxing Ding, Jian Wang, Jingdong Wang
- Abstract要約: 事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。
これら2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。
本稿では,T2I-ReIDタスクに特化して設計された統合事前学習パイプライン(UniPT)を提案する。
- 参考スコア(独自算出の注目度): 42.791647210424664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-training task is indispensable for the text-to-image person
re-identification (T2I-ReID) task. However, there are two underlying
inconsistencies between these two tasks that may impact the performance; i)
Data inconsistency. A large domain gap exists between the generic images/texts
used in public pre-trained models and the specific person data in the T2I-ReID
task. This gap is especially severe for texts, as general textual data are
usually unable to describe specific people in fine-grained detail. ii) Training
inconsistency. The processes of pre-training of images and texts are
independent, despite cross-modality learning being critical to T2I-ReID. To
address the above issues, we present a new unified pre-training pipeline
(UniPT) designed specifically for the T2I-ReID task. We first build a
large-scale text-labeled person dataset "LUPerson-T", in which pseudo-textual
descriptions of images are automatically generated by the CLIP paradigm using a
divide-conquer-combine strategy. Benefiting from this dataset, we then utilize
a simple vision-and-language pre-training framework to explicitly align the
feature space of the image and text modalities during pre-training. In this
way, the pre-training task and the T2I-ReID task are made consistent with each
other on both data and training levels. Without the need for any bells and
whistles, our UniPT achieves competitive Rank-1 accuracy of, ie, 68.50%,
60.09%, and 51.85% on CUHK-PEDES, ICFG-PEDES and RSTPReid, respectively. Both
the LUPerson-T dataset and code are available at
https;//github.com/ZhiyinShao-H/UniPT.
- Abstract(参考訳): 事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。
しかし、これらの2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。
一 データの整合性
パブリック事前訓練されたモデルで使用される一般的な画像/テキストと、T2I-ReIDタスクの特定の人物データの間に大きなドメインギャップが存在する。
一般的なテキストデータは通常、特定の人物を詳細に記述できないため、このギャップはテキストにとって特に深刻である。
二 不整合の訓練
画像とテキストの事前学習のプロセスは、T2I-ReIDに欠如しているにもかかわらず、独立している。
上記の課題に対処するため,T2I-ReIDタスク用に設計された新しい統合事前学習パイプライン(UniPT)を提案する。
まず,大規模なテキストラベル付き人物データセットLUPerson-Tを構築し,画像の擬似テキスト記述を分割コンカイン戦略を用いてCLIPパラダイムで自動生成する。
このデータセットの利点を生かして、単純なビジョンと言語による事前学習フレームワークを使用して、事前トレーニング中の画像とテキストのモダリティの特徴空間を明示的に調整します。
このように、事前トレーニングタスクとT2I-ReIDタスクは、データレベルとトレーニングレベルの両方で一致させる。
ベルとホイッスルを必要とせずに、我々のUniPTは、CUHK-PEDES, ICFG-PEDES, RSTPReidでそれぞれ68.50%, 60.09%, 51.85%の競合ランク1の精度を達成した。
LUPerson-Tデータセットとコードはhttps;//github.com/ZhiyinShao-H/UniPTで利用可能である。
関連論文リスト
- ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。