論文の概要: Modular Prompt Learning Improves Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.14125v1
- Date: Wed, 19 Feb 2025 22:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:35.211911
- Title: Modular Prompt Learning Improves Vision-Language Models
- Title(参考訳): Modular Prompt Learningは視覚言語モデルを改善する
- Authors: Zhenhan Huang, Tejaswini Pedapati, Pin-Yu Chen, Jianxi Gao,
- Abstract要約: 挿入されたプロンプトに含まれる情報の保存を促進するために,モジュール型プロンプト学習(MPL)を提案する。
提案手法は,ベース・ツー・ニューな一般化タスクにおいて平均0.7%の性能向上を実現している。
個々のデータセットにおける最大の改善は10.7%である。
- 参考スコア(独自算出の注目度): 49.132774679968456
- License:
- Abstract: Pre-trained vision-language models are able to interpret visual concepts and language semantics. Prompt learning, a method of constructing prompts for text encoders or image encoders, elicits the potentials of pre-trained models and readily adapts them to new scenarios. Compared to fine-tuning, prompt learning enables the model to achieve comparable or better performance using fewer trainable parameters. Besides, prompt learning freezes the pre-trained model and avoids the catastrophic forgetting issue in the fine-tuning. Continuous prompts inserted into the input of every transformer layer (i.e. deep prompts) can improve the performances of pre-trained models on downstream tasks. For i-th transformer layer, the inserted prompts replace previously inserted prompts in the $(i-1)$-th layer. Although the self-attention mechanism contextualizes newly inserted prompts for the current layer and embeddings from the previous layer's output, removing all inserted prompts from the previous layer inevitably loses information contained in the continuous prompts. In this work, we propose Modular Prompt Learning (MPL) that is designed to promote the preservation of information contained in the inserted prompts. We evaluate the proposed method on base-to-new generalization and cross-dataset tasks. On average of 11 datasets, our method achieves 0.7% performance gain on the base-to-new generalization task compared to the state-of-the-art method. The largest improvement on the individual dataset is 10.7% (EuroSAT dataset).
- Abstract(参考訳): 事前学習された視覚言語モデルは、視覚概念と言語意味論を解釈することができる。
Prompt Learningは、テキストエンコーダや画像エンコーダのプロンプトを構築する方法であり、事前訓練されたモデルのポテンシャルを導き、それらを新しいシナリオに容易に適応させる。
微調整と比較すると、迅速な学習により、トレーニング可能なパラメータを少なくすることで、モデルが同等またはより良いパフォーマンスを達成することができる。
さらに、素早い学習は事前訓練されたモデルを凍結し、微調整における破滅的な忘れの問題を回避する。
各トランス層(ディーププロンプト)の入力に挿入される連続プロンプトは、下流タスクにおける事前訓練されたモデルの性能を改善することができる。
i-th変換器層の場合、挿入されたプロンプトは$(i-1)$-th層で以前に挿入されたプロンプトを置き換える。
自己注意機構は、現在の層に対する新たに挿入されたプロンプトと前層の出力からの埋め込みを文脈的に認識するが、前層の全ての挿入されたプロンプトは、必然的に連続的なプロンプトに含まれる情報を失う。
本研究では,挿入されたプロンプトに含まれる情報の保存を促進するために,MPL(Modular Prompt Learning)を提案する。
提案手法をベース・ツー・ニューな一般化とクロス・データセット・タスクで評価する。
平均11個のデータセットに対して,本手法は最新手法と比較して,ベース・ツー・ニューな一般化タスクにおいて0.7%の性能向上を実現している。
個々のデータセットの最大の改善点は10.7%(EuroSATデータセット)である。
関連論文リスト
- Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Convolutional Prompting meets Language Models for Continual Learning [4.115213208594654]
継続学習(CL)により、機械学習モデルは、古いタスクからのデータなしで、新しいトレーニングデータを継続的にシフトすることから学ぶことができる。
ConvPromptは、階層的に共有された埋め込みを維持する新しい畳み込みプロンプト生成機構である。
畳み込みのインテリジェントな利用により、パフォーマンスを損なうことなく、低パラメータのオーバーヘッドを維持することができます。
論文 参考訳(メタデータ) (2024-03-29T17:40:37Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。