論文の概要: Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning
- arxiv url: http://arxiv.org/abs/2210.12587v1
- Date: Sun, 23 Oct 2022 01:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:16:24.928533
- Title: Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning
- Title(参考訳): プロンプト融合の代わりにモデルアンサンブル : サンプル特異的プロンプトチューニングのための知識伝達法
- Authors: Xiangyu Peng, Chen Xing, Prafulla Kumar Choubey, Chien-Sheng Wu,
Caiming Xiong
- Abstract要約: 我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
- 参考スコア(独自算出の注目度): 85.55727213502402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning approaches, which learn task-specific soft prompts for a
downstream task conditioning on frozen pre-trained models, have attracted
growing interest due to its parameter efficiency. With large language models
and sufficient training data, prompt tuning performs comparably to full-model
tuning. However, with limited training samples in few-shot settings, prompt
tuning fails to match the performance of full-model fine-tuning. In this work,
we focus on improving the few-shot performance of prompt tuning by transferring
knowledge from soft prompts of source tasks. Recognizing the good
generalization capabilities of ensemble methods in low-data regime, we first
experiment and show that a simple ensemble of model predictions based on
different source prompts, outperforms existing multi-prompt knowledge transfer
approaches such as source prompt fusion in the few-shot setting. Motivated by
this observation, we further investigate model ensembles and propose
Sample-specific Ensemble of Source Models (SESoM). SESoM learns to adjust the
contribution of each source model for each target sample separately when
ensembling source model outputs. Through this way, SESoM inherits the superior
generalization of model ensemble approaches and simultaneously captures the
sample-specific competence of each source prompt. We conduct experiments across
a diverse set of eight NLP tasks using models of different scales (T5-{base,
large, XL}) and find that SESoM consistently outperforms the existing models of
the same as well as larger parametric scale by a large margin.
- Abstract(参考訳): 凍った事前学習されたモデル上で下流タスクコンディショニングのタスク固有のソフトプロンプトを学習するプロンプトチューニングアプローチは、パラメータ効率のために関心を集めている。
大きな言語モデルと十分なトレーニングデータにより、プロンプトチューニングはフルモデルチューニングと互換性がある。
しかし、限られたトレーニングサンプルでわずかなショット設定では、プロンプトチューニングはフルモデルの微調整のパフォーマンスにマッチしない。
本研究では,ソースタスクのソフトプロンプトから知識を移し,プロンプトチューニングのマイショット性能を向上させることに注力する。
低データ状態におけるアンサンブル手法の優れた一般化能力を認識し、まず実験を行い、異なるソースプロンプトに基づくモデル予測の単純なアンサンブルが、ソースプロンプト融合のような既存のマルチプロンプト知識伝達アプローチより優れていることを示す。
本研究の目的は,モデルアンサンブルを更に検討し,サンプル固有ソースモデル(SESoM)を提案することである。
sesomは、ソースモデルが出力されるときに、各ターゲットサンプルに対する各ソースモデルの貢献を別々に調整することを学ぶ。
このようにして、SESoMはモデルアンサンブルアプローチの優れた一般化を継承し、各ソースプロンプトのサンプル固有の能力を同時にキャプチャする。
我々は、異なるスケールのモデル(T5-{base, large, XL})を用いて、異なる8つのNLPタスクの多様なセットで実験を行い、SESoMが既存のモデルと大きなパラメトリックスケールを大きなマージンで一貫して上回ることを示した。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models [30.68516200579894]
一貫性モデル(CM)に基づく新しいアーキテクチャであるCM-TTSを紹介する。
CM-TTSは、対戦訓練や事前訓練されたモデル依存なしに、より少ないステップで高品質な音声合成を実現する。
包括的評価により検証した実時間メル-クログラム生成一貫性モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T05:38:08Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - CONTRAST: Continual Multi-source Adaptation to Dynamic Distributions [42.293444710522294]
Continual Multi-source Adaptation to Dynamic Distributions (CONTRAST) は、複数のソースモデルを最適に組み合わせて動的テストデータに適応する新しい手法である。
提案手法は,ソースモデルを最適に組み合わせ,モデル更新の優先順位付けを最小限に行うことができることを示す。
論文 参考訳(メタデータ) (2024-01-04T22:23:56Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。