Fugu-MT 論文翻訳(概要): PLIP: Language-Image Pre-training for Person Representation Learning

論文の概要: PLIP: Language-Image Pre-training for Person Representation Learning

arxiv url: http://arxiv.org/abs/2305.08386v2
Date: Wed, 29 May 2024 08:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 02:41:05.642039
Title: PLIP: Language-Image Pre-training for Person Representation Learning
Title（参考訳）: PLIP:人物表現学習のための言語画像事前学習
Authors: Jialong Zuo, Jiahao Hong, Feng Zhang, Changqian Yu, Hanyu Zhou, Changxin Gao, Nong Sang, Jingdong Wang,
Abstract要約: 個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。 PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
参考スコア（独自算出の注目度）: 51.348303233290025
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Language-image pre-training is an effective technique for learning powerful representations in general domains. However, when directly turning to person representation learning, these general pre-training methods suffer from unsatisfactory performance. The reason is that they neglect critical person-related characteristics, i.e., fine-grained attributes and identities. To address this issue, we propose a novel language-image pre-training framework for person representation learning, termed PLIP. Specifically, we elaborately design three pretext tasks: 1) Text-guided Image Colorization, aims to establish the correspondence between the person-related image regions and the fine-grained color-part textual phrases. 2) Image-guided Attributes Prediction, aims to mine fine-grained attribute information of the person body in the image; and 3) Identity-based Vision-Language Contrast, aims to correlate the cross-modal representations at the identity level rather than the instance level. Moreover, to implement our pre-train framework, we construct a large-scale person dataset with image-text pairs named SYNTH-PEDES by automatically generating textual annotations. We pre-train PLIP on SYNTH-PEDES and evaluate our models by spanning downstream person-centric tasks. PLIP not only significantly improves existing methods on all these tasks, but also shows great ability in the zero-shot and domain generalization settings. The code, dataset and weights will be released at~\url{https://github.com/Zplusdragon/PLIP}
Abstract（参考訳）: 言語イメージ事前学習は、一般的なドメインにおける強力な表現を学習するための効果的なテクニックである。しかし、直接人体表現学習を行う場合、これらの一般的な事前学習法は不満足な性能に悩まされる。理由は、批判的な人物の特徴、すなわちきめ細かい属性やアイデンティティを無視するからである。この問題に対処するために,PLIPと呼ばれる人物表現学習のための新しい言語画像事前学習フレームワークを提案する。具体的には、3つのプレテキストタスクを精巧に設計する。 1) テキスト誘導画像のカラー化は,人物関連画像領域と微粒なカラー部分のテキストフレーズとの対応性を確立することを目的としている。 2【画像誘導属性予測】は、画像中の人物の微粒な属性情報をマイニングすることを目的とする。 3) アイデンティティベースのVision-Language Contrastは、インスタンスレベルではなく、アイデンティティレベルでのクロスモーダル表現の相関を目指している。さらに,事前トレーニングフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築し,テキストアノテーションを自動生成する。我々は、SynTH-PEDES上でPLIPを事前訓練し、下流の人中心のタスクにまたがってモデルを評価する。 PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。コード、データセット、重み付けは~\url{https://github.com/Zplusdragon/PLIP} でリリースされる。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文参考訳（メタデータ） (2024-10-21T21:05:04Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文参考訳（メタデータ） (2023-08-19T20:18:15Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)
FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2021-11-09T17:15:38Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。