論文の概要: MoPD: Mixture-of-Prompts Distillation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.19087v1
- Date: Thu, 26 Dec 2024 06:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:26.441022
- Title: MoPD: Mixture-of-Prompts Distillation for Vision-Language Models
- Title(参考訳): MoPD:ビジョンランゲージモデルのための混合プロンプト蒸留法
- Authors: Yang Chen, Shuai Fu, Yu Zhang,
- Abstract要約: 我々はMixture-of-Prompts Distillation(MOPD)というソフトプロンプト学習手法を提案する。
MoPDは、手作りのハードプロンプト(例えば教師のプロンプト)から学習可能なソフトプロンプト(例えば学生のプロンプト)へ有用な知識を効果的に伝達することができる。
広汎な実験により,提案手法は特に目に見えないクラスにおいて,最先端のベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 9.193005492713597
- License:
- Abstract: Soft prompt learning methods are effective for adapting vision-language models (VLMs) to downstream tasks. Nevertheless, empirical evidence reveals a tendency of existing methods that they overfit seen classes and exhibit degraded performance on unseen classes. This limitation is due to the inherent bias in the training data towards the seen classes. To address this issue, we propose a novel soft prompt learning method, named Mixture-of-Prompts Distillation (MoPD), which can effectively transfer useful knowledge from hard prompts manually hand-crafted (a.k.a. teacher prompts) to the learnable soft prompt (a.k.a. student prompt), thereby enhancing the generalization ability of soft prompts on unseen classes. Moreover, the proposed MoPD method utilizes a gating network that learns to select hard prompts used for prompt distillation. Extensive experiments demonstrate that the proposed MoPD method outperforms state-of-the-art baselines especially on on unseen classes.
- Abstract(参考訳): ソフトプロンプト学習法は、下流タスクに視覚言語モデル(VLM)を適用するのに有効である。
それにもかかわらず、実証的な証拠は、見過ごされたクラスに適合し、目に見えないクラスで劣化したパフォーマンスを示す既存の手法の傾向を明らかにしている。
この制限は、トレーニングデータに見られるクラスに対する固有のバイアスによるものです。
そこで本研究では,手作りのハードプロンプト(例えば教師のプロンプト)から学習可能なソフトプロンプト(例えば学生のプロンプト)へ,有用な知識を効果的に伝達する,Mixture-of-Prompts Distillation(MOPD)というソフトプロンプト学習手法を提案する。
さらに, 提案手法では, 急速蒸留に用いるハードプロンプトの選択を学習するゲーティングネットワークを利用する。
広汎な実験により,提案手法は特に目に見えないクラスにおいて,最先端のベースラインよりも優れていた。
関連論文リスト
- Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。
本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning [30.70974942397732]
本稿では,学生に親しみやすい知識を伝達する生成言語モデルを実現するために,PromptKDを提案する。
命令追従データセットの実験は、PromptKDが最先端のパフォーマンスを達成することを示す。
さらに分析したところ、学生に親しみやすい知識の蒸留は、トレーニングプロセス全体を通して効果的に露光バイアスを軽減することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T09:10:08Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z) - OpenPrompt: An Open-source Framework for Prompt-learning [59.17869696803559]
PLM上でのプロンプト学習を行うための統一的な使いやすさツールキットであるOpenPromptを提案する。
OpenPromptは、効率性、モジュール性、拡張性を備えた、リサーチフレンドリーなフレームワークである。
論文 参考訳(メタデータ) (2021-11-03T03:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。