論文の概要: PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.15277v1
- Date: Wed, 18 Dec 2024 03:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:17.638614
- Title: PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models
- Title(参考訳): PLPP:パープレキシティによるプロンプトラーニングはビジョンランゲージモデルのための自己拡張である
- Authors: Biao Liu, Wenyi Fang, Xiaoyu Wu, Yang Zheng, Zheng Hu, Bo Yuan,
- Abstract要約: 本稿では,PLPPと呼ばれるプラグイン・プロンプト正規化手法を提案する。
4つの分類タスクで行った実験は、PLPPが既存の手法に比べて優れた性能を示したことを示している。
- 参考スコア(独自算出の注目度): 8.480318790780037
- License:
- Abstract: Pre-trained Vision-Language (VL) models such as CLIP have demonstrated their excellent performance across numerous downstream tasks. A recent method, Context Optimization (CoOp), further improves the performance of VL models on downstream tasks by introducing prompt learning. CoOp optimizes a set of learnable vectors, aka prompt, and freezes the whole CLIP model. However, relying solely on CLIP loss to fine-tune prompts can lead to models that are prone to overfitting on downstream task. To address this issue, we propose a plug-in prompt-regularization method called PLPP (Prompt Learning with PerPlexity), which use perplexity loss to regularize prompt learning. PLPP designs a two-step operation to compute the perplexity for prompts: (a) calculating cosine similarity between the weight of the embedding layer and prompts to get labels, (b) introducing a language model (LM) head that requires no training behind text encoder to output word probability distribution. Meanwhile, we unveil that the essence of PLPP is inherently a form of self-distillation. To further prevent overfitting as well as to reduce the additional computation introduced by PLPP, we turn the hard label to soft label and choose top-$k$ values for calculating the perplexity loss. For accelerating model convergence, we introduce mutual self-distillation learning, that is perplexity and inverted perplexity loss. The experiments conducted on four classification tasks indicate that PLPP exhibits superior performance compared to existing methods.
- Abstract(参考訳): CLIPのような事前訓練されたビジョンランゲージ(VL)モデルは、多くの下流タスクで優れたパフォーマンスを示している。
最近の手法であるコンテキスト最適化(CoOp)は、迅速な学習を導入することにより、下流タスクにおけるVLモデルの性能をさらに向上させる。
CoOpは学習可能なベクタのセットを最適化し、Aka promptを作り、CLIPモデル全体を凍結する。
しかし、CLIPの損失のみを微調整プロンプトに頼れば、下流タスクに過度に適合する傾向にあるモデルにつながる可能性がある。
そこで我々はPLPP(Prompt Learning with PerPlexity)と呼ばれるプラグインのプロンプト正規化手法を提案する。
PLPPは2段階の演算を設計し、プロンプトのパープレキシティを計算する。
(a)埋め込み層の重みのコサイン類似性を計算し、ラベルを得るよう促す。
b) 単語確率分布を出力するために,テキストエンコーダの裏側にトレーニングを必要としない言語モデル(LM)ヘッドを導入する。
一方,PLPPの本質は本質的に自己蒸留の一種であることが明らかとなった。
PLPPが導入した計算のオーバーフィッティングを防止し、さらに計算量を減らすため、ハードラベルをソフトラベルに変換し、パープレキシティ損失を計算するためにトップ$kの値を選択する。
モデル収束を加速するために, パープレキシティと逆パープレキシティ損失である相互自己蒸留学習を導入する。
4つの分類タスクで行った実験は,PLPPが既存手法に比べて優れた性能を示したことを示している。
関連論文リスト
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - Zero-Shot Class Unlearning in CLIP with Synthetic Samples [0.0]
私たちは、画像テキストペアの巨大なデータセットに基づいてトレーニングされたデュアルビジョン言語モデルであるCLIP内でのアンラーニングに重点を置いています。
リプシッツ正則化をCLIPのマルチモーダル文脈に適用する。
我々の忘れる手順は反復的であり、合成された忘れ物セットの精度を追跡し、選択された閾値未満の精度で停止する。
論文 参考訳(メタデータ) (2024-07-10T09:16:14Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。