Fugu-MT 論文翻訳(概要): PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models

論文の概要: PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.15277v1
Date: Wed, 18 Dec 2024 03:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.661576
Title: PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models
Title（参考訳）: PLPP:パープレキシティによるプロンプトラーニングはビジョンランゲージモデルのための自己拡張である
Authors: Biao Liu, Wenyi Fang, Xiaoyu Wu, Yang Zheng, Zheng Hu, Bo Yuan,
Abstract要約: 本稿では,PLPPと呼ばれるプラグイン・プロンプト正規化手法を提案する。 4つの分類タスクで行った実験は、PLPPが既存の手法に比べて優れた性能を示したことを示している。
参考スコア（独自算出の注目度）: 8.480318790780037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained Vision-Language (VL) models such as CLIP have demonstrated their excellent performance across numerous downstream tasks. A recent method, Context Optimization (CoOp), further improves the performance of VL models on downstream tasks by introducing prompt learning. CoOp optimizes a set of learnable vectors, aka prompt, and freezes the whole CLIP model. However, relying solely on CLIP loss to fine-tune prompts can lead to models that are prone to overfitting on downstream task. To address this issue, we propose a plug-in prompt-regularization method called PLPP (Prompt Learning with PerPlexity), which use perplexity loss to regularize prompt learning. PLPP designs a two-step operation to compute the perplexity for prompts: (a) calculating cosine similarity between the weight of the embedding layer and prompts to get labels, (b) introducing a language model (LM) head that requires no training behind text encoder to output word probability distribution. Meanwhile, we unveil that the essence of PLPP is inherently a form of self-distillation. To further prevent overfitting as well as to reduce the additional computation introduced by PLPP, we turn the hard label to soft label and choose top-$k$ values for calculating the perplexity loss. For accelerating model convergence, we introduce mutual self-distillation learning, that is perplexity and inverted perplexity loss. The experiments conducted on four classification tasks indicate that PLPP exhibits superior performance compared to existing methods.
Abstract（参考訳）: CLIPのような事前訓練されたビジョンランゲージ(VL)モデルは、多くの下流タスクで優れたパフォーマンスを示している。最近の手法であるコンテキスト最適化(CoOp)は、迅速な学習を導入することにより、下流タスクにおけるVLモデルの性能をさらに向上させる。 CoOpは学習可能なベクタのセットを最適化し、Aka promptを作り、CLIPモデル全体を凍結する。しかし、CLIPの損失のみを微調整プロンプトに頼れば、下流タスクに過度に適合する傾向にあるモデルにつながる可能性がある。そこで我々はPLPP(Prompt Learning with PerPlexity)と呼ばれるプラグインのプロンプト正規化手法を提案する。 PLPPは2段階の演算を設計し、プロンプトのパープレキシティを計算する。 (a)埋め込み層の重みのコサイン類似性を計算し、ラベルを得るよう促す。 b) 単語確率分布を出力するために,テキストエンコーダの裏側にトレーニングを必要としない言語モデル(LM)ヘッドを導入する。一方,PLPPの本質は本質的に自己蒸留の一種であることが明らかとなった。 PLPPが導入した計算のオーバーフィッティングを防止し、さらに計算量を減らすため、ハードラベルをソフトラベルに変換し、パープレキシティ損失を計算するためにトップ$kの値を選択する。モデル収束を加速するために, パープレキシティと逆パープレキシティ損失である相互自己蒸留学習を導入する。 4つの分類タスクで行った実験は,PLPPが既存手法に比べて優れた性能を示したことを示している。

関連論文リスト

FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation [17.51747913191231]
大規模なtextbfFaster large textbfDistillation-large textbfBased large textbfPrompt large textbfLL (textbfFDBPL) を提案する。複数のトレーニングステージにまたがってソフトな監視コンテキストを共有し、アクセラレーションされたI/Oを実装することで、問題に対処する。11データセットにわたる包括的な評価は、ベース・ツー・ニューな一般化、クロス・データセットの転送、ロバストネステストにおいて優れたパフォーマンスを示し、より高速なトレーニング速度で2.2倍の速さで達成する。
論文参考訳（メタデータ） (2025-05-23T15:57:16Z)
Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文参考訳（メタデータ） (2025-04-17T07:46:19Z)
Zero-Shot Class Unlearning in CLIP with Synthetic Samples [0.0]
私たちは、画像テキストペアの巨大なデータセットに基づいてトレーニングされたデュアルビジョン言語モデルであるCLIP内でのアンラーニングに重点を置いています。リプシッツ正則化をCLIPのマルチモーダル文脈に適用する。我々の忘れる手順は反復的であり、合成された忘れ物セットの精度を追跡し、選択された閾値未満の精度で停止する。
論文参考訳（メタデータ） (2024-07-10T09:16:14Z)
LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-04-02T20:23:10Z)
ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。 ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文参考訳（メタデータ） (2024-03-29T11:31:12Z)
Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文参考訳（メタデータ） (2023-11-30T13:22:15Z)
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。 Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-10-02T03:12:06Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)
Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文参考訳（メタデータ） (2023-04-04T12:42:29Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。