論文の概要: Reducing Retraining by Recycling Parameter-Efficient Prompts
- arxiv url: http://arxiv.org/abs/2208.05577v1
- Date: Wed, 10 Aug 2022 22:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:14:22.275923
- Title: Reducing Retraining by Recycling Parameter-Efficient Prompts
- Title(参考訳): リサイクルパラメータ効率の良いプロンプトによるリトレーニングの削減
- Authors: Brian Lester and Joshua Yurtsever and Siamak Shakeri and Noah Constant
- Abstract要約: モデル間のリサイクリングが可能であることを示す(最良のセッティングは80.9%のプロンプトのリサイクルに成功し、ベースラインを上回ったプロンプトを生成する)。
モデル間のリサイクルが可能であること(最高の設定で80.9%のプロンプトを再利用でき、ベースラインを上回るプロンプトを発生させる)は示していますが、重要なパフォーマンスのヘッドルームは残っており、リサイクル技術の改善が必要です。
- 参考スコア(独自算出の注目度): 23.6827516021001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient methods are able to use a single frozen pre-trained large
language model (LLM) to perform many tasks by learning task-specific soft
prompts that modulate model behavior when concatenated to the input text.
However, these learned prompts are tightly coupled to a given frozen model --
if the model is updated, corresponding new prompts need to be obtained. In this
work, we propose and investigate several approaches to "Prompt Recycling'"
where a prompt trained on a source model is transformed to work with the new
target model. Our methods do not rely on supervised pairs of prompts,
task-specific data, or training updates with the target model, which would be
just as costly as re-tuning prompts with the target model from scratch. We show
that recycling between models is possible (our best settings are able to
successfully recycle $88.9\%$ of prompts, producing a prompt that out-performs
baselines), but significant performance headroom remains, requiring improved
recycling techniques.
- Abstract(参考訳): パラメータ効率のよい手法は、単一の凍結事前学習された大言語モデル(LLM)を使用して、入力テキストに連結された場合のモデル動作を変調するタスク固有のソフトプロンプトを学習することで、多くのタスクを実行することができる。
しかし、これらの学習されたプロンプトは、与えられた凍結モデルに強く結合される - もしモデルが更新されたら、対応する新しいプロンプトを取得する必要がある。
そこで本研究では, 資源モデルに即効訓練を施したプロンプトを新たなターゲットモデルに適合させる「プロンプトリサイクル」の手法を提案し, 検討する。
我々の手法は、教師付きプロンプトのペア、タスク固有のデータ、あるいはターゲットモデルとのトレーニング更新には依存せず、ターゲットモデルでスクラッチから再チューニングするプロンプトと同じくらいコストがかかる。
モデル間のリサイクリングが可能であること(ベストセッティングは80.9 %のプロンプトのリサイクルに成功し、ベースラインを上回ったプロンプトを生成する)を示すが、重要なパフォーマンスヘッドルームは残っており、リサイクル技術の改善が必要である。
関連論文リスト
- A Framework for Monitoring and Retraining Language Models in Real-World
Applications [3.566775910781198]
多くの現実世界のアプリケーションでは、継続的モデル監視とモデル再トレーニングが必要になります。
データやコンセプトドリフトなどの再トレーニングにはさまざまな理由があり、適切なメトリックによって監視されるモデルのパフォーマンスに反映される可能性がある。
マルチラベル分類モデルを用いて, モデル性能や資源利用などの重要な要因に対する各種リトレーニング決定点の影響について検討する。
論文 参考訳(メタデータ) (2023-11-16T14:32:18Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。