論文の概要: Improving Robustness in Knowledge Distillation Using Domain-Targeted
Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.13067v1
- Date: Mon, 22 May 2023 14:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:24:20.604070
- Title: Improving Robustness in Knowledge Distillation Using Domain-Targeted
Data Augmentation
- Title(参考訳): ドメイン目標データ拡張による知識蒸留におけるロバスト性の改善
- Authors: Joe Stacey and Marek Rei
- Abstract要約: 言語モデルを用いて、ターゲットのアウト・オブ・ディストリビューション領域でデータを模倣するタスク固有の未ラベルデータを作成します。
ドメインをターゲットとした拡張は非常に効果的であり、アウト・オブ・ディストリビューション性能を評価する際には、従来の手法よりも優れています。
また,蒸留中の少数例を同定・アップサンプリングする方法である蒸留マイノリティアップサンプリング(DMU)についても紹介する。
- 参考スコア(独自算出の注目度): 11.825518209815673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying knowledge distillation encourages a student model to behave more
like a teacher model, largely retaining the performance of the teacher model,
even though the student model may have substantially fewer parameters. However,
while distillation helps student models behave more like teacher models
in-distribution, this is not necessarily the case out-of-distribution. To
address this, we use a language model to create task-specific unlabeled data
that mimics the data in targeted out-of-distribution domains. We use this
generated data for knowledge distillation on the task of Natural Language
Inference (NLI), encouraging the student models to behave more like the teacher
models for these examples. Our domain-targeted augmentation is highly
effective, and outperforms previous robustness methods when evaluating
out-of-distribution performance on MNLI. Surprisingly, this method also
improves performance on out-of-distribution domains that the data was not
generated for. We additionally introduce Distilled Minority Upsampling (DMU), a
method for identifying and upsampling minority examples during the
distillation. DMU is complementary to the domain-targeted augmentation, and
substantially improves performance on SNLI-hard. Finally, we show
out-of-distribution improvements on HANS from both of our methods, despite
augmenting the training data with fewer than 5k examples.
- Abstract(参考訳): 知識蒸留を適用することで、学生モデルは教師モデルのように振る舞うことができ、学生モデルはパラメータが著しく少ないとしても、主に教師モデルのパフォーマンスを維持することができる。
しかし、蒸留は学生モデルが教師モデルのように振る舞うのに役立つが、必ずしも分布外であるとは限らない。
これに対処するために、私たちは言語モデルを使用して、ターゲットとする分散ドメインでデータを模倣するタスク固有のラベルなしデータを作成します。
この生成したデータは、自然言語推論(NLI)タスクにおける知識蒸留に利用し、これらの例の教師モデルのように振る舞うことを学生モデルに奨励する。
mnliにおける分散性能の評価においては,従来のロバストネス法を上回っている。
驚くべきことに、この方法はデータが生成されていない分散ドメインのパフォーマンスも改善する。
また,蒸留中の少数例を同定し,アップサンプリングする方法であるdmu(distilled minority upsampling)についても紹介する。
DMUはドメインターゲット拡張を補完し、SNLIハードの性能を大幅に向上させる。
最後に,5k未満の例でトレーニングデータを増やしながら,両手法のHANSの分布改善を示す。
関連論文リスト
- Progressive Distillation Based on Masked Generation Feature Method for
Knowledge Graph Completion [31.044580914187307]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - A Studious Approach to Semi-Supervised Learning [0.0]
本論文は半教師付き環境での蒸留のアブレーション研究である。
モデルのパラメータ数を削減しますが、パフォーマンスを改善しながらこれを達成することができます。
これにより、半教師付きコンピュータビジョンタスクの性能を高める効果的なソリューションとしての蒸留の可能性がもたらされる。
論文 参考訳(メタデータ) (2021-09-18T12:48:47Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。