論文の概要: Learning Transferable Pedestrian Representation from Multimodal
Information Supervision
- arxiv url: http://arxiv.org/abs/2304.05554v1
- Date: Wed, 12 Apr 2023 01:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:26:16.641805
- Title: Learning Transferable Pedestrian Representation from Multimodal
Information Supervision
- Title(参考訳): マルチモーダル情報監督による移動可能な歩行者表現の学習
- Authors: Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi
Tian
- Abstract要約: VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
- 参考スコア(独自算出の注目度): 174.5150760804929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent researches on unsupervised person re-identification~(reID) have
demonstrated that pre-training on unlabeled person images achieves superior
performance on downstream reID tasks than pre-training on ImageNet. However,
those pre-trained methods are specifically designed for reID and suffer
flexible adaption to other pedestrian analysis tasks. In this paper, we propose
VAL-PAT, a novel framework that learns transferable representations to enhance
various pedestrian analysis tasks with multimodal information. To train our
framework, we introduce three learning objectives, \emph{i.e.,} self-supervised
contrastive learning, image-text contrastive learning and multi-attribute
classification. The self-supervised contrastive learning facilitates the
learning of the intrinsic pedestrian properties, while the image-text
contrastive learning guides the model to focus on the appearance information of
pedestrians.Meanwhile, multi-attribute classification encourages the model to
recognize attributes to excavate fine-grained pedestrian information. We first
perform pre-training on LUPerson-TA dataset, where each image contains text and
attribute annotations, and then transfer the learned representations to various
downstream tasks, including person reID, person attribute recognition and
text-based person search. Extensive experiments demonstrate that our framework
facilitates the learning of general pedestrian representations and thus leads
to promising results on various pedestrian analysis tasks.
- Abstract(参考訳): 教師なし人物の再識別〜(reID)に関する最近の研究は、ラベルなし人物画像の事前訓練が、ImageNetの事前訓練よりも下流のreIDタスクにおいて優れた性能を発揮することを示した。
しかし、これらの事前訓練された方法は、reid用に特別に設計され、他の歩行者分析タスクに柔軟に対応できる。
本稿では,移動可能表現を学習し,マルチモーダル情報を用いた歩行者分析タスクを効率化する新しいフレームワークであるval-patを提案する。
フレームワークの学習には,自己指導型コントラスト学習,画像テキスト型コントラスト学習,マルチ属性分類という3つの学習目標を導入する。
自己教師付きコントラスト学習は、本質的な歩行者特性の学習を促進させ、画像テキストコントラスト学習は、モデルが歩行者の外観情報に焦点を当てるように誘導する一方、複数属性分類は、モデルが細粒度の歩行者情報を発掘するために属性を認識することを奨励する。
まず、luperson-taデータセットで事前トレーニングを行い、各画像にテキストと属性のアノテーションが含まれ、学習した表現をパーソナリド、パーソナリティ認識、テキストベースのパーソナライズなど、さまざまな下流タスクに転送する。
広範な実験により,提案手法は一般歩行者表現の学習を容易にし,様々な歩行者分析タスクに有望な結果をもたらすことを実証した。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Semi-supervised Learning with a Teacher-student Network for Generalized
Attribute Prediction [7.462336024223667]
本稿では,視覚特性予測問題を解くための半教師付き学習について述べる。
提案手法は,ファッション属性予測のための様々なベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T02:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。