論文の概要: Embedding Recycling for Language Models
- arxiv url: http://arxiv.org/abs/2207.04993v1
- Date: Mon, 11 Jul 2022 16:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:17:29.361740
- Title: Embedding Recycling for Language Models
- Title(参考訳): 言語モデルのための埋め込みリサイクル
- Authors: Jon Saad-Falcon, Amanpreet Singh, Luca Soldaini, Mike D'Arcy, Arman
Cohan, Doug Downey
- Abstract要約: 我々は, 埋込みリサイクル(ER)によるそのような環境下での計算コストの削減について検討する。
我々は、事前訓練されたモデルから中間層の出力をキャッシュし、残りのレイヤを微調整して新しいタスクを行う方法を提案する。
本研究では,本手法が学習中の100%の高速化,55~86%の推論速度向上を実現し,学術領域におけるテキスト分類とエンティティ認識タスクの精度への影響を無視できることを示した。
- 参考スコア(独自算出の注目度): 38.11465250435789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training and inference with large neural models is expensive. However, for
many application domains, while new tasks and models arise frequently, the
underlying documents being modeled remain mostly unchanged. We study how to
decrease computational cost in such settings through embedding recycling (ER):
re-using activations from previous model runs when performing training or
inference. In contrast to prior work focusing on freezing small classification
heads for finetuning which often leads to notable drops in performance, we
propose caching an intermediate layer's output from a pretrained model and
finetuning the remaining layers for new tasks. We show that our method provides
a 100% speedup during training and a 55-86% speedup for inference, and has
negligible impacts on accuracy for text classification and entity recognition
tasks in the scientific domain. For general-domain question answering tasks, ER
offers a similar speedup and lowers accuracy by a small amount. Finally, we
identify several open challenges and future directions for ER.
- Abstract(参考訳): 大きなニューラルモデルによるトレーニングと推論は高価である。
しかし、多くのアプリケーションドメインでは、新しいタスクやモデルが頻繁に発生するが、基礎となるドキュメントはほとんど変わっていない。
本研究では, 組込みリサイクル (ER) を用いて, トレーニングや推論を行う際に, 従来のモデル実行時のアクティベーションを再利用することにより, 計算コストを低減させる方法について検討する。
ファインタニングのための小さな分類ヘッドの凍結に焦点をあてた以前の研究とは対照的に、未訓練モデルからの中間層の出力をキャッシュし、新しいタスクのために残りの層を微調整する手法を提案する。
提案手法は,学習中に100%高速化し,55~86%の高速化を実現し,科学的領域におけるテキスト分類やエンティティ認識タスクの精度に与える影響を無視できることを示した。
一般領域質問応答タスクでは、ERも同様のスピードアップを提供し、少ない精度で精度を下げる。
最後に,ERの課題と今後の方向性を明らかにする。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Multi-task Retrieval for Knowledge-Intensive Tasks [21.725935960568027]
ニューラル検索のためのマルチタスク訓練モデルを提案する。
我々のアプローチは、数ショット設定で過去の手法より優れているだけでなく、ニューラルレトリバーに匹敵する。
レトリバーの助けを借りて、ダウンストリームタスクの既存のモデルを改善し、複数のベンチマークで最先端の技術を密接に一致または改善します。
論文 参考訳(メタデータ) (2021-01-01T00:16:34Z) - Patient-Specific Domain Adaptation for Fast Optical Flow Based on
Teacher-Student Knowledge Transfer [2.0303656145222857]
高速な運動フィードバックは、移動組織に対するコンピュータ支援手術(CAS)において重要である。
現在のモデルの深層学習は、共通速度と精度のトレードオフを示している。
本稿では,高処理速度で高い精度を実現するために,患者固有の高速モデルの微調整を提案する。
論文 参考訳(メタデータ) (2020-07-09T17:01:08Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。