論文の概要: PLIP: Language-Image Pre-training for Person Representation Learning
- arxiv url: http://arxiv.org/abs/2305.08386v1
- Date: Mon, 15 May 2023 06:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:50:53.329084
- Title: PLIP: Language-Image Pre-training for Person Representation Learning
- Title(参考訳): PLIP:人物表現学習のための言語画像事前学習
- Authors: Jialong Zuo, Changqian Yu, Nong Sang, Changxin Gao
- Abstract要約: 個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
微粒なクロスモーダルアソシエーションを明示的に構築するために,3つのプレテキスト,すなわちセマンティックフューズド画像のカラー化,視覚フューズド属性予測,視覚言語マッチングを設計する。
我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
- 参考スコア(独自算出の注目度): 47.61636087431226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has emerged as an effective technique for learning powerful
person representations. Most existing methods have shown that pre-training on
pure-vision large-scale datasets like ImageNet and LUPerson has achieved
remarkable performance. However, solely relying on visual information, the
absence of robust explicit indicators poses a challenge for these methods to
learn discriminative person representations. Drawing inspiration from the
intrinsic fine-grained attribute indicators of person descriptions, we explore
introducing the language modality into person representation learning. To this
end, we propose a novel language-image pre-training framework for person
representation learning, termed PLIP. To explicitly build fine-grained
cross-modal associations, we specifically design three pretext tasks, \ie
semantic-fused image colorization, visual-fused attributes prediction, and
vision-language matching. In addition, due to the lack of an appropriate
dataset, we present a large-scale person dataset named SYNTH-PEDES, where the
Stylish Pedestrian Attributes-union Captioning method is proposed to synthesize
diverse textual descriptions. We pre-train PLIP on SYNTH-PEDES and evaluate our
model by spanning downstream tasks such as text-based Re-ID, image-based Re-ID,
and person attribute recognition. Extensive experiments demonstrate that our
model not only significantly improves existing methods on all these tasks, but
also shows great ability in the few-shot and domain generalization settings.
The code, dataset and weights will be released
at~\url{https://github.com/Zplusdragon/PLIP}
- Abstract(参考訳): 事前学習は、強力な人間表現を学ぶための効果的な技術として出現した。
既存のほとんどの手法では、ImageNetやLUPersonのような純粋ビジョンの大規模データセットで事前トレーニングを行うことで、優れたパフォーマンスを実現している。
しかし、視覚情報のみに頼っているため、ロバストな明示的指標の欠如は、これらの手法が識別的人物表現を学習することの難しさを招いている。
人格記述の内在的な微粒な属性指標からインスピレーションを得て,人格表現学習に言語モダリティを導入することを検討する。
そこで本研究では,個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
細かな粒度のクロスモーダル関係を明示的に構築するために,3つのプリテキストタスク,<ie>セマンティック融合画像彩色,視覚融合属性予測,視覚言語マッチングを特別に設計した。
また、適切なデータセットがないため、SynTH-PEDESと呼ばれる大規模人物データセットを提示し、Stylish Pedestrian Attributes-union Captioning法を提案し、多様なテキスト記述を合成する。
我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
広範な実験により、我々のモデルがこれらのすべてのタスクで既存のメソッドを大幅に改善するだけでなく、マイナショットとドメインの一般化設定において優れた能力を示すことが示されました。
コード、データセット、重み付けは~\url{https://github.com/Zplusdragon/PLIP} でリリースされる。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - ASPIRE: Language-Guided Augmentation for Robust Image Classification [45.18975613672963]
ASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)は,合成画像によるトレーニングデータセットの拡張において,素早い特徴を伴わずに有効な方法である。
まず、画像のテキスト記述から前景や背景の特徴を抽出し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。
最後に,テキスト・ツー・イメージ生成モデルをパーソナライズして,刺激的な特徴を伴わない多様なドメイン内画像を生成する。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。