論文の概要: DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining
- arxiv url: http://arxiv.org/abs/2305.12074v3
- Date: Fri, 20 Oct 2023 02:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 08:01:16.519874
- Title: DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining
- Title(参考訳): DisCo:半教師付きテキストマイニングのための学生共学モデル
- Authors: Weifeng Jiang, Qianren Mao, Chenghua Lin, Jianxin Li, Ting Deng, Weiyi
Yang and Zheng Wang
- Abstract要約: DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。
本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
- 参考スコア(独自算出の注目度): 23.418419374791107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many text mining models are constructed by fine-tuning a large deep
pre-trained language model (PLM) in downstream tasks. However, a significant
challenge nowadays is maintaining performance when we use a lightweight model
with limited labelled samples. We present DisCo, a semi-supervised learning
(SSL) framework for fine-tuning a cohort of small student models generated from
a large PLM using knowledge distillation. Our key insight is to share
complementary knowledge among distilled student cohorts to promote their SSL
effectiveness. DisCo employs a novel co-training technique to optimize a cohort
of multiple small student models by promoting knowledge sharing among students
under diversified views: model views produced by different distillation
strategies and data views produced by various input augmentations. We evaluate
DisCo on both semi-supervised text classification and extractive summarization
tasks. Experimental results show that DisCo can produce student models that are
7.6 times smaller and 4.8 times faster in inference than the baseline PLMs
while maintaining comparable performance. We also show that DisCo-generated
student models outperform the similar-sized models elaborately tuned in
distinct tasks.
- Abstract(参考訳): 多くのテキストマイニングモデルは、ダウンストリームタスクで大きな深層事前学習言語モデル(plm)を微調整することで構築される。
しかし、最近の重要な課題は、ラベル付きサンプルが限定された軽量モデルを使用する場合のパフォーマンスを維持することです。
本稿では、知識蒸留を用いた大規模PLMから生成された小学生モデルのコホートを微調整するための、半教師付き学習(SSL)フレームワークであるDisCoを紹介する。
我々の重要な洞察は、蒸留された学生コホート間で補完的な知識を共有し、SSLの有効性を促進することである。
discoは、異なる蒸留戦略によって生成されたモデルビューと、様々な入力拡張によって生成されたデータビューである、多様化した視点の下での学生間の知識共有を促進することにより、複数の小学生モデルのコホートを最適化するために、新しいコトレーニング技術を採用している。
半教師付きテキスト分類と抽出要約タスクにおけるDisCoの評価を行った。
実験の結果、DisCoは7.6倍小さく、4.8倍の推論速度を持つ学生モデルを生産でき、性能は同等であることがわかった。
また、DisCo生成した学生モデルは、異なるタスクで精巧に調整された類似サイズのモデルよりも優れていることを示す。
関連論文リスト
- DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。