論文の概要: Reminding the Incremental Language Model via Data-Free Self-Distillation
- arxiv url: http://arxiv.org/abs/2110.08745v1
- Date: Sun, 17 Oct 2021 07:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 13:30:27.402049
- Title: Reminding the Incremental Language Model via Data-Free Self-Distillation
- Title(参考訳): データフリー自己蒸留によるインクリメンタル言語モデルの再検討
- Authors: Han Wang, Ruiliu Fu, Chengzhang Li, Xuejun Zhang, Jun Zhou, Yonghong
Yan
- Abstract要約: 擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。
データフリー自己蒸留(DFSD)を用いたインクリメンタル言語モデルを提案する。
我々のDFSDは、擬似データの最大減少率が90%であっても、従来の最先端手法を超えることができる。
- 参考スコア(独自算出の注目度): 26.960750314663294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incremental language learning with pseudo-data can alleviate catastrophic
forgetting in neural networks. However, to obtain better performance, former
methods have higher demands for pseudo-data of the previous tasks. The
performance dramatically decreases when fewer pseudo-data are employed. In
addition, the distribution of pseudo-data gradually deviates from the real data
with the sequential learning of different tasks. The deviation will be greater
with more tasks learned, which results in more serious catastrophic forgetting.
To address these issues, we propose reminding incremental language model via
data-free self-distillation (DFSD), which includes self-distillation based on
the Earth Mover's Distance and hidden data augmentation. By estimating the
knowledge distribution in all layers of GPT-2 and transforming it from teacher
model to student model, the Self-distillation based on the Earth Mover's
Distance can significantly reduce the demand for pseudo-data. Hidden data
augmentation can greatly alleviate the catastrophic forgetting caused by
deviations via modeling the generation of pseudo-data as a hidden data
augmentation process, where each sample is a mixture of all trained task data.
The experimental results demonstrate that our DFSD can exceed the previous
state-of-the-art methods even if the maximum decrease in pseudo-data is 90%.
- Abstract(参考訳): 擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。
しかし、より優れた性能を得るためには、以前のメソッドは、以前のタスクの擬似データに対する要求が高い。
擬似データが少ないと性能が劇的に低下する。
さらに、擬似データの分布は、異なるタスクの逐次学習によって、実データから徐々に逸脱する。
より多くのタスクが学習されれば、偏差はより大きくなります。
これらの問題に対処するために、地球Moverの距離と隠れデータ拡張に基づく自己蒸留を含むデータフリー自己蒸留(DFSD)によるインクリメンタル言語モデルを提案する。
GPT-2のすべての層における知識分布を推定し、それを教師モデルから生徒モデルに変換することにより、アースモーバー距離に基づく自己蒸留は擬似データの需要を著しく減少させる。
隠れデータ拡張は、擬似データの生成を隠されたデータ拡張プロセスとしてモデル化することにより、偏差による破滅的な忘れを著しく軽減することができる。
実験の結果,擬似データの最大減少率が90%であっても,DFSDは従来の最先端手法を超過できることがわかった。
関連論文リスト
- Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Mendata: A Framework to Purify Manipulated Training Data [12.406255198638064]
我々は、操作したトレーニングデータを浄化するフレームワークであるMendataを提案する。
Mendataはトレーニングインプットを乱してユーティリティを保持するが、参照データと同様に分散される。
我々は、最先端のデータ中毒やデータ追跡技術にMendataを適用して、その効果を実証する。
論文 参考訳(メタデータ) (2023-12-03T04:40:08Z) - Farzi Data: Autoregressive Data Distillation [34.39112473620335]
自動回帰機械学習タスクにおけるデータ蒸留について検討する。
本稿では、イベントシーケンスデータセットを少数の合成シーケンスに要約するFarziを提案する。
論文 参考訳(メタデータ) (2023-10-15T23:23:27Z) - A Pre-trained Data Deduplication Model based on Active Learning [13.495903601474819]
汚れたデータ"問題は、ビッグデータの効果的な適用を著しく制限することができる。
本研究では,能動学習に基づく事前学習型重複解法モデルを提案する。
提案モデルでは、重複データ識別のための従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-07-31T03:56:46Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Scaling Laws and Interpretability of Learning from Repeated Data [4.3242395495523525]
データの大部分がユニークだが、そのごく一部が何度も繰り返されるモデル群をトレーニングします。
また,2重降下現象が出現し,連続したデータによってテスト損失が増加し,トレーニングの途中で増加することが示唆された。
予測可能な繰り返し周波数の範囲は、驚くほどパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-05-21T02:14:27Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。