論文の概要: Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2101.08106v1
- Date: Wed, 20 Jan 2021 13:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:28:12.400873
- Title: Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation
- Title(参考訳): Data-Scarce Domain BERT 知識蒸留のための拡張学習
- Authors: Lingyun Feng, Minghui Qiu, Yaliang Li, Hai-Tao Zheng, Ying Shen
- Abstract要約: 本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 55.34995029082051
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite pre-trained language models such as BERT have achieved appealing
performance in a wide range of natural language processing tasks, they are
computationally expensive to be deployed in real-time applications. A typical
method is to adopt knowledge distillation to compress these large pre-trained
models (teacher models) to small student models. However, for a target domain
with scarce training data, the teacher can hardly pass useful knowledge to the
student, which yields performance degradation for the student models. To tackle
this problem, we propose a method to learn to augment for data-scarce domain
BERT knowledge distillation, by learning a cross-domain manipulation scheme
that automatically augments the target with the help of resource-rich source
domains. Specifically, the proposed method generates samples acquired from a
stationary distribution near the target data and adopts a reinforced selector
to automatically refine the augmentation strategy according to the performance
of the student. Extensive experiments demonstrate that the proposed method
significantly outperforms state-of-the-art baselines on four different tasks,
and for the data-scarce domains, the compressed student models even perform
better than the original large teacher model, with much fewer parameters (only
${\sim}13.3\%$) when only a few labeled examples available.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、幅広い自然言語処理タスクにおいて魅力的なパフォーマンスを達成しているが、リアルタイムアプリケーションにデプロイするには計算コストがかかる。
典型的な方法は、これらの大きな事前訓練されたモデル(教師モデル)を小さな学生モデルに圧縮するために知識蒸留を採用することである。
しかし、学習データが少ない対象領域では、教師が生徒に有用な知識を渡すことはほとんどなく、生徒モデルの性能劣化をもたらす。
この問題を解決するために,資源豊富なソースドメインの助けを借りてターゲットを自動的に拡張するクロスドメイン操作方式を学習することにより,データ共有ドメインBERT知識蒸留の強化を学ぶ方法を提案する。
具体的には、対象データ近傍の定常分布から得られたサンプルを生成し、強化セレクタを採用し、生徒のパフォーマンスに応じて拡張戦略を自動的に洗練する。
大規模な実験により、提案手法は4つの異なるタスクにおいて最先端のベースラインを著しく上回り、データスカース領域では、圧縮された学生モデルは元の大きな教師モデルよりも優れた性能を示し、ラベル付き例がいくつかある場合に、パラメータがはるかに少ない(${\sim}13.3\%$)。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning [22.748835458594744]
Retrievalをベースとする。
Ensemble (RPE) - ベクトル化されたデータベースを作成する新しい方法。
Low-Rank Adaptations (LoRA)
RPEは、広範囲なトレーニングの必要性を最小限に抑え、ラベル付きデータの要求を排除し、特にゼロショット学習に有効である。
RPEは、生のデータにアクセスせずにモデルパラメータを変更するため、ヘルスケアのようなプライバシに敏感なドメインに適している。
論文 参考訳(メタデータ) (2024-10-13T16:28:38Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Data Techniques For Online End-to-end Speech Recognition [17.621967685914587]
ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。
最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。
本稿では,オンラインASRシステムをエンド・ツー・エンドで構築するための簡単な実装手法について検討する。
論文 参考訳(メタデータ) (2020-01-24T22:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。