Fugu-MT 論文翻訳(概要): Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation

論文の概要: Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation

arxiv url: http://arxiv.org/abs/2101.08106v1
Date: Wed, 20 Jan 2021 13:07:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 01:28:12.400873
Title: Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation
Title（参考訳）: Data-Scarce Domain BERT 知識蒸留のための拡張学習
Authors: Lingyun Feng, Minghui Qiu, Yaliang Li, Hai-Tao Zheng, Ying Shen
Abstract要約: 本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
参考スコア（独自算出の注目度）: 55.34995029082051
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite pre-trained language models such as BERT have achieved appealing performance in a wide range of natural language processing tasks, they are computationally expensive to be deployed in real-time applications. A typical method is to adopt knowledge distillation to compress these large pre-trained models (teacher models) to small student models. However, for a target domain with scarce training data, the teacher can hardly pass useful knowledge to the student, which yields performance degradation for the student models. To tackle this problem, we propose a method to learn to augment for data-scarce domain BERT knowledge distillation, by learning a cross-domain manipulation scheme that automatically augments the target with the help of resource-rich source domains. Specifically, the proposed method generates samples acquired from a stationary distribution near the target data and adopts a reinforced selector to automatically refine the augmentation strategy according to the performance of the student. Extensive experiments demonstrate that the proposed method significantly outperforms state-of-the-art baselines on four different tasks, and for the data-scarce domains, the compressed student models even perform better than the original large teacher model, with much fewer parameters (only ${\sim}13.3\%$) when only a few labeled examples available.
Abstract（参考訳）: BERTのような事前訓練された言語モデルは、幅広い自然言語処理タスクにおいて魅力的なパフォーマンスを達成しているが、リアルタイムアプリケーションにデプロイするには計算コストがかかる。典型的な方法は、これらの大きな事前訓練されたモデル(教師モデル)を小さな学生モデルに圧縮するために知識蒸留を採用することである。しかし、学習データが少ない対象領域では、教師が生徒に有用な知識を渡すことはほとんどなく、生徒モデルの性能劣化をもたらす。この問題を解決するために,資源豊富なソースドメインの助けを借りてターゲットを自動的に拡張するクロスドメイン操作方式を学習することにより,データ共有ドメインBERT知識蒸留の強化を学ぶ方法を提案する。具体的には、対象データ近傍の定常分布から得られたサンプルを生成し、強化セレクタを採用し、生徒のパフォーマンスに応じて拡張戦略を自動的に洗練する。大規模な実験により、提案手法は4つの異なるタスクにおいて最先端のベースラインを著しく上回り、データスカース領域では、圧縮された学生モデルは元の大きな教師モデルよりも優れた性能を示し、ラベル付き例がいくつかある場合に、パラメータがはるかに少ない(${\sim}13.3\%$)。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文参考訳（メタデータ） (2025-01-14T11:39:55Z)
Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文参考訳（メタデータ） (2024-11-22T01:48:44Z)
Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。 LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-12T18:57:59Z)
Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning [22.748835458594744]
Retrievalをベースとする。 Ensemble (RPE) - ベクトル化されたデータベースを作成する新しい方法。 Low-Rank Adaptations (LoRA) RPEは、広範囲なトレーニングの必要性を最小限に抑え、ラベル付きデータの要求を排除し、特にゼロショット学習に有効である。 RPEは、生のデータにアクセスせずにモデルパラメータを変更するため、ヘルスケアのようなプライバシに敏感なドメインに適している。
論文参考訳（メタデータ） (2024-10-13T16:28:38Z)
Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文参考訳（メタデータ） (2024-02-07T22:50:47Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文参考訳（メタデータ） (2020-07-13T10:00:44Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Data Techniques For Online End-to-end Speech Recognition [17.621967685914587]
ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。本稿では,オンラインASRシステムをエンド・ツー・エンドで構築するための簡単な実装手法について検討する。
論文参考訳（メタデータ） (2020-01-24T22:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。