論文の概要: FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation
- arxiv url: http://arxiv.org/abs/2505.18053v1
- Date: Fri, 23 May 2025 15:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.212712
- Title: FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation
- Title(参考訳): FDBPL:領域認識型視覚言語モデル適応のための蒸留法に基づく高速プロンプト学習
- Authors: Zherui Zhang, Jiaxin Wu, Changwei Wang, Rongtao Xu, Longzhao Huang, Wenhao Xu, Wenbo Xu, Li Guo, Shibiao Xu,
- Abstract要約: 大規模なtextbfFaster large textbfDistillation-large textbfBased large textbfPrompt large textbfLL (textbfFDBPL) を提案する。
複数のトレーニングステージにまたがってソフトな監視コンテキストを共有し、アクセラレーションされたI/Oを実装することで、問題に対処する。11データセットにわたる包括的な評価は、ベース・ツー・ニューな一般化、クロス・データセットの転送、ロバストネステストにおいて優れたパフォーマンスを示し、より高速なトレーニング速度で2.2倍の速さで達成する。
- 参考スコア(独自算出の注目度): 17.51747913191231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning as a parameter-efficient method that has been widely adopted to adapt Vision-Language Models (VLMs) to downstream tasks. While hard-prompt design requires domain expertise and iterative optimization, soft-prompt methods rely heavily on task-specific hard labels, limiting their generalization to unseen categories. Recent popular distillation-based prompt learning methods improve generalization by exploiting larger teacher VLMs and unsupervised knowledge transfer, yet their repetitive teacher model online inference sacrifices the inherent training efficiency advantage of prompt learning. In this paper, we propose {{\large {\textbf{F}}}}aster {{\large {\textbf{D}}}}istillation-{{\large {\textbf{B}}}}ased {{\large {\textbf{P}}}}rompt {{\large {\textbf{L}}}}earning (\textbf{FDBPL}), which addresses these issues by sharing soft supervision contexts across multiple training stages and implementing accelerated I/O. Furthermore, FDBPL introduces a region-aware prompt learning paradigm with dual positive-negative prompt spaces to fully exploit randomly cropped regions that containing multi-level information. We propose a positive-negative space mutual learning mechanism based on similarity-difference learning, enabling student CLIP models to recognize correct semantics while learning to reject weakly related concepts, thereby improving zero-shot performance. Unlike existing distillation-based prompt learning methods that sacrifice parameter efficiency for generalization, FDBPL maintains dual advantages of parameter efficiency and strong downstream generalization. Comprehensive evaluations across 11 datasets demonstrate superior performance in base-to-new generalization, cross-dataset transfer, and robustness tests, achieving $2.2\times$ faster training speed.
- Abstract(参考訳): プロンプト学習は、視覚言語モデル(VLM)を下流タスクに適用するために広く採用されているパラメータ効率のよい手法である。
ハードプロンプト設計はドメインの専門知識と反復最適化を必要とするが、ソフトプロンプト法はタスク固有のハードラベルに大きく依存し、一般化を目に見えないカテゴリに限定する。
近年普及している蒸留法に基づく即時学習法は,より大きな教員のVLMと教師なしの知識伝達を活用して一般化を図っているが,オンライン推論の反復的教師モデルは,即時学習を生かした本質的な学習効率を犠牲にしている。
本稿では、複数のトレーニング段階にまたがってソフトな監視コンテキストを共有し、加速されたI/Oを実装することで、これらの問題に対処する {{\large {\textbf{F}}}aster {{\large {\textbf{D}}}}istillation-{{\large {\textbf{B}}}}ased {{\large {\textbf{P}}}}rompt {{\large {\textbf{L}}}}earning (\textbf{FDBPL})を提案する。
さらに、FDBPLは、多レベル情報を含むランダムに収穫された領域を完全に活用するために、二重正負のプロンプト空間を持つ領域対応のプロンプト学習パラダイムを導入する。
類似性差分学習に基づく正負空間相互学習機構を提案し、学生のCLIPモデルは、弱い関連概念を拒絶しながら正しい意味を認識できるようにし、ゼロショット性能を向上させる。
パラメータ効率を犠牲にして一般化を行う既存の蒸留法とは異なり、FDBPLはパラメータ効率と強力な下流一般化の2つの利点を維持している。
11データセットにわたる総合的な評価は、ベース・ツー・ニューな一般化、クロス・データセット・トランスファー、ロバストネステストにおいて優れたパフォーマンスを示し、2.2\times$高速なトレーニング速度を達成した。
関連論文リスト
- Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。