論文の概要: UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval
- arxiv url: http://arxiv.org/abs/2504.10084v1
- Date: Mon, 14 Apr 2025 10:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:33.333925
- Title: UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval
- Title(参考訳): UP-Person:テキストに基づく人物検索のための一元化パラメータ効率変換学習
- Authors: Yating Liu, Yaowei Li, Xiangyuan Lan, Wenming Yang, Zimo Liu, Qingmin Liao,
- Abstract要約: テキストベースPerson Retrieval(TPR)は,テキスト記述が与えられた候補画像のプールから対象人物を検索することを目的としたマルチモーダルタスクであり,近年注目されている。
事前の作業では、事前訓練されたCLIPを使用して、人物の視覚的特徴とテキスト的特徴を抽出し、ネットワーク全体を完全に微調整する。
我々は小説『統一』を提案する。
-テキストベースの人検索(UPPerson)のためのPETL(Efficient Transfer Learning)手法を徹底的に導入する。
CLIPからのマルチモーダルな知識。
- 参考スコア(独自算出の注目度): 47.018491164452094
- License:
- Abstract: Text-based Person Retrieval (TPR) as a multi-modal task, which aims to retrieve the target person from a pool of candidate images given a text description, has recently garnered considerable attention due to the progress of contrastive visual-language pre-trained model. Prior works leverage pre-trained CLIP to extract person visual and textual features and fully fine-tune the entire network, which have shown notable performance improvements compared to uni-modal pre-training models. However, full-tuning a large model is prone to overfitting and hinders the generalization ability. In this paper, we propose a novel Unified Parameter-Efficient Transfer Learning (PETL) method for Text-based Person Retrieval (UP-Person) to thoroughly transfer the multi-modal knowledge from CLIP. Specifically, UP-Person simultaneously integrates three lightweight PETL components including Prefix, LoRA and Adapter, where Prefix and LoRA are devised together to mine local information with task-specific information prompts, and Adapter is designed to adjust global feature representations. Additionally, two vanilla submodules are optimized to adapt to the unified architecture of TPR. For one thing, S-Prefix is proposed to boost attention of prefix and enhance the gradient propagation of prefix tokens, which improves the flexibility and performance of the vanilla prefix. For another thing, L-Adapter is designed in parallel with layer normalization to adjust the overall distribution, which can resolve conflicts caused by overlap and interaction among multiple submodules. Extensive experimental results demonstrate that our UP-Person achieves state-of-the-art results across various person retrieval datasets, including CUHK-PEDES, ICFG-PEDES and RSTPReid while merely fine-tuning 4.7\% parameters. Code is available at https://github.com/Liu-Yating/UP-Person.
- Abstract(参考訳): テキストベースPerson Retrieval(TPR)は,テキスト記述が与えられた候補画像のプールから対象人物を検索することを目的としたマルチモーダルタスクである。
以前の作業では、事前トレーニングされたCLIPを使用して、人物の視覚的特徴とテキスト的特徴を抽出し、ネットワーク全体を完全に微調整した。
しかし、大きなモデルをフルチューニングすることは、過度に適合し、一般化能力を阻害する傾向がある。
本稿では,CLIPからマルチモーダル知識を徹底的に伝達するための,テキストベースの人検索(UP-Person)のための一元的パラメータ効率変換学習(PETL)手法を提案する。
具体的には、UP-PersonはPrefix、LoRA、Adapterの3つの軽量PETLコンポーネントを同時に統合し、PrefixとLoRAは、ローカル情報をタスク固有の情報プロンプトでマイニングするために開発され、Adapterはグローバルな特徴表現を調整するように設計されている。
さらに、2つのバニラ部分加群は、TPRの統一アーキテクチャに適応するように最適化されている。
例えば、S-Prefixは接頭辞の注意を高め、接頭辞の勾配伝播を高めるために提案され、バニラ接頭辞の柔軟性と性能が向上する。
また、L-Adapterは層正規化と並行して設計されており、複数のサブモジュール間の重複や相互作用に起因する競合を解決することができる。
その結果, UP-Personは, CUHK-PEDES, ICFG-PEDES, RSTPReidなど, さまざまな人物検索データセットにまたがる最先端の成果を達成できた。
コードはhttps://github.com/Liu-Yating/UP-Person.comで入手できる。
関連論文リスト
- Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。
基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。
Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-12-30T01:38:14Z) - Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。