論文の概要: Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a
Fraction of Time
- arxiv url: http://arxiv.org/abs/2010.07865v2
- Date: Mon, 22 Mar 2021 16:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 02:57:58.258479
- Title: Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a
Fraction of Time
- Title(参考訳): 更新頻度, 更新速度: 時間差による意味的パーシングシステムのリトレーニング
- Authors: Vladislav Lialin, Rahul Goel, Andrey Simanovsky, Anna Rumshisky,
Rushin Shah
- Abstract要約: 微調整により,スクラッチからトレーニングしたモデルの性能を10%未満の時間で一致させることができることを示す。
提案手法がFacebook TOPとSNIPSデータセットの複数分割に対して有効であることを示す。
- 参考スコア(独自算出の注目度): 11.035461657669096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently used semantic parsing systems deployed in voice assistants can
require weeks to train. Datasets for these models often receive small and
frequent updates, data patches. Each patch requires training a new model. To
reduce training time, one can fine-tune the previously trained model on each
patch, but naive fine-tuning exhibits catastrophic forgetting - degradation of
the model performance on the data not represented in the data patch. In this
work, we propose a simple method that alleviates catastrophic forgetting and
show that it is possible to match the performance of a model trained from
scratch in less than 10% of a time via fine-tuning. The key to achieving this
is supersampling and EWC regularization. We demonstrate the effectiveness of
our method on multiple splits of the Facebook TOP and SNIPS datasets.
- Abstract(参考訳): 現在、音声アシスタントにデプロイされるセマンティック解析システムは、トレーニングに数週間を要する。
これらのモデルのデータセットは、小さな頻繁な更新やデータパッチを受け取ることが多い。
各パッチは、新しいモデルをトレーニングする必要がある。
トレーニング時間を短縮するために、事前にトレーニングしたモデルを各パッチで微調整することができるが、ナイーブな微調整は、データパッチで表現されていないデータに対するモデル性能の低下という破滅的な忘れ方を示す。
本研究では,大惨な忘れを軽減し,スクラッチからトレーニングしたモデルの性能を微調整によって10%未満の時間で一致させることができる簡易な手法を提案する。
これを実現する鍵はスーパーサンプリングとewc正規化である。
提案手法がFacebook TOPとSNIPSデータセットの複数分割に対して有効であることを示す。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - Catastrophic Forgetting in the Context of Model Updates [0.360953887026184]
ディープニューラルネットワークは、トレーニングに何万ドルもかかる可能性がある。
新しいデータがパイプラインに入ると、既存のすべてのデータから新しいモデルをスクラッチからトレーニングすることができる。
前者は高価で遅い。後者は安くて速いが、破滅的な忘れ物は、新しいモデルを「忘れる」ために古いデータをうまく分類する。
論文 参考訳(メタデータ) (2023-06-16T21:21:41Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - RealPatch: A Statistical Matching Framework for Model Patching with Real
Samples [6.245453620070586]
RealPatchは、統計マッチングに基づいた、よりシンプルで、より高速で、よりデータ効率の高いデータ拡張のためのフレームワークである。
この結果から,RealPatchは,モデルリークを低減し,高ユーティリティを維持するとともに,データセットリークを効果的に除去できることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T16:22:30Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。