論文の概要: Reducing Retraining by Recycling Parameter-Efficient Prompts
- arxiv url: http://arxiv.org/abs/2208.05577v1
- Date: Wed, 10 Aug 2022 22:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:14:22.275923
- Title: Reducing Retraining by Recycling Parameter-Efficient Prompts
- Title(参考訳): リサイクルパラメータ効率の良いプロンプトによるリトレーニングの削減
- Authors: Brian Lester and Joshua Yurtsever and Siamak Shakeri and Noah Constant
- Abstract要約: モデル間のリサイクリングが可能であることを示す(最良のセッティングは80.9%のプロンプトのリサイクルに成功し、ベースラインを上回ったプロンプトを生成する)。
モデル間のリサイクルが可能であること(最高の設定で80.9%のプロンプトを再利用でき、ベースラインを上回るプロンプトを発生させる)は示していますが、重要なパフォーマンスのヘッドルームは残っており、リサイクル技術の改善が必要です。
- 参考スコア(独自算出の注目度): 23.6827516021001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient methods are able to use a single frozen pre-trained large
language model (LLM) to perform many tasks by learning task-specific soft
prompts that modulate model behavior when concatenated to the input text.
However, these learned prompts are tightly coupled to a given frozen model --
if the model is updated, corresponding new prompts need to be obtained. In this
work, we propose and investigate several approaches to "Prompt Recycling'"
where a prompt trained on a source model is transformed to work with the new
target model. Our methods do not rely on supervised pairs of prompts,
task-specific data, or training updates with the target model, which would be
just as costly as re-tuning prompts with the target model from scratch. We show
that recycling between models is possible (our best settings are able to
successfully recycle $88.9\%$ of prompts, producing a prompt that out-performs
baselines), but significant performance headroom remains, requiring improved
recycling techniques.
- Abstract(参考訳): パラメータ効率のよい手法は、単一の凍結事前学習された大言語モデル(LLM)を使用して、入力テキストに連結された場合のモデル動作を変調するタスク固有のソフトプロンプトを学習することで、多くのタスクを実行することができる。
しかし、これらの学習されたプロンプトは、与えられた凍結モデルに強く結合される - もしモデルが更新されたら、対応する新しいプロンプトを取得する必要がある。
そこで本研究では, 資源モデルに即効訓練を施したプロンプトを新たなターゲットモデルに適合させる「プロンプトリサイクル」の手法を提案し, 検討する。
我々の手法は、教師付きプロンプトのペア、タスク固有のデータ、あるいはターゲットモデルとのトレーニング更新には依存せず、ターゲットモデルでスクラッチから再チューニングするプロンプトと同じくらいコストがかかる。
モデル間のリサイクリングが可能であること(ベストセッティングは80.9 %のプロンプトのリサイクルに成功し、ベースラインを上回ったプロンプトを生成する)を示すが、重要なパフォーマンスヘッドルームは残っており、リサイクル技術の改善が必要である。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。