Fugu-MT 論文翻訳(概要): PLIP: Language-Image Pre-training for Person Representation Learning

論文の概要: PLIP: Language-Image Pre-training for Person Representation Learning

arxiv url: http://arxiv.org/abs/2305.08386v1
Date: Mon, 15 May 2023 06:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 15:50:53.329084
Title: PLIP: Language-Image Pre-training for Person Representation Learning
Title（参考訳）: PLIP:人物表現学習のための言語画像事前学習
Authors: Jialong Zuo, Changqian Yu, Nong Sang, Changxin Gao
Abstract要約: 個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。微粒なクロスモーダルアソシエーションを明示的に構築するために,3つのプレテキスト,すなわちセマンティックフューズド画像のカラー化,視覚フューズド属性予測,視覚言語マッチングを設計する。我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
参考スコア（独自算出の注目度）: 47.61636087431226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training has emerged as an effective technique for learning powerful person representations. Most existing methods have shown that pre-training on pure-vision large-scale datasets like ImageNet and LUPerson has achieved remarkable performance. However, solely relying on visual information, the absence of robust explicit indicators poses a challenge for these methods to learn discriminative person representations. Drawing inspiration from the intrinsic fine-grained attribute indicators of person descriptions, we explore introducing the language modality into person representation learning. To this end, we propose a novel language-image pre-training framework for person representation learning, termed PLIP. To explicitly build fine-grained cross-modal associations, we specifically design three pretext tasks, \ie semantic-fused image colorization, visual-fused attributes prediction, and vision-language matching. In addition, due to the lack of an appropriate dataset, we present a large-scale person dataset named SYNTH-PEDES, where the Stylish Pedestrian Attributes-union Captioning method is proposed to synthesize diverse textual descriptions. We pre-train PLIP on SYNTH-PEDES and evaluate our model by spanning downstream tasks such as text-based Re-ID, image-based Re-ID, and person attribute recognition. Extensive experiments demonstrate that our model not only significantly improves existing methods on all these tasks, but also shows great ability in the few-shot and domain generalization settings. The code, dataset and weights will be released at~\url{https://github.com/Zplusdragon/PLIP}
Abstract（参考訳）: 事前学習は、強力な人間表現を学ぶための効果的な技術として出現した。既存のほとんどの手法では、ImageNetやLUPersonのような純粋ビジョンの大規模データセットで事前トレーニングを行うことで、優れたパフォーマンスを実現している。しかし、視覚情報のみに頼っているため、ロバストな明示的指標の欠如は、これらの手法が識別的人物表現を学習することの難しさを招いている。人格記述の内在的な微粒な属性指標からインスピレーションを得て,人格表現学習に言語モダリティを導入することを検討する。そこで本研究では,個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。細かな粒度のクロスモーダル関係を明示的に構築するために,3つのプリテキストタスク,<ie>セマンティック融合画像彩色,視覚融合属性予測,視覚言語マッチングを特別に設計した。また、適切なデータセットがないため、SynTH-PEDESと呼ばれる大規模人物データセットを提示し、Stylish Pedestrian Attributes-union Captioning法を提案し、多様なテキスト記述を合成する。我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。広範な実験により、我々のモデルがこれらのすべてのタスクで既存のメソッドを大幅に改善するだけでなく、マイナショットとドメインの一般化設定において優れた能力を示すことが示されました。コード、データセット、重み付けは~\url{https://github.com/Zplusdragon/PLIP} でリリースされる。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文参考訳（メタデータ） (2024-10-21T21:05:04Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文参考訳（メタデータ） (2023-08-19T20:18:15Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)
FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2021-11-09T17:15:38Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。