論文の概要: DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining
- arxiv url: http://arxiv.org/abs/2305.12074v2
- Date: Mon, 16 Oct 2023 11:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:08:24.478492
- Title: DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining
- Title(参考訳): DisCo:半教師付きテキストマイニングのための学生共学モデル
- Authors: Weifeng Jiang, Qianren Mao, Jianxin Li, Ting Deng, Weiyi Yang, Zheng
Wang and Chenghua Lin
- Abstract要約: DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。
本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
- 参考スコア(独自算出の注目度): 23.418419374791107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many text mining models are constructed by fine-tuning a large deep
pre-trained language model (PLM) in downstream tasks. However, a significant
challenge nowadays is maintaining performance when we use a lightweight model
with limited labelled samples. We present DisCo, a semi-supervised learning
(SSL) framework for fine-tuning a cohort of small student models generated from
a large PLM using knowledge distillation. Our key insight is to share
complementary knowledge among distilled student cohorts to promote their SSL
effectiveness. DisCo employs a novel co-training technique to optimize a cohort
of multiple small student models by promoting knowledge sharing among students
under diversified views: model views produced by different distillation
strategies and data views produced by various input augmentations. We evaluate
DisCo on both semi-supervised text classification and extractive summarization
tasks. Experimental results show that DisCo can produce student models that are
7.6 times smaller and 4.8 times faster in inference than the baseline PLMs
while maintaining comparable performance. We also show that DisCo-generated
student models outperform the similar-sized models elaborately tuned in
distinct tasks.
- Abstract(参考訳): 多くのテキストマイニングモデルは、ダウンストリームタスクで大きな深層事前学習言語モデル(plm)を微調整することで構築される。
しかし、最近の重要な課題は、ラベル付きサンプルが限定された軽量モデルを使用する場合のパフォーマンスを維持することです。
本稿では、知識蒸留を用いた大規模PLMから生成された小学生モデルのコホートを微調整するための、半教師付き学習(SSL)フレームワークであるDisCoを紹介する。
我々の重要な洞察は、蒸留された学生コホート間で補完的な知識を共有し、SSLの有効性を促進することである。
discoは、異なる蒸留戦略によって生成されたモデルビューと、様々な入力拡張によって生成されたデータビューである、多様化した視点の下での学生間の知識共有を促進することにより、複数の小学生モデルのコホートを最適化するために、新しいコトレーニング技術を採用している。
半教師付きテキスト分類と抽出要約タスクにおけるDisCoの評価を行った。
実験の結果、DisCoは7.6倍小さく、4.8倍の推論速度を持つ学生モデルを生産でき、性能は同等であることがわかった。
また、DisCo生成した学生モデルは、異なるタスクで精巧に調整された類似サイズのモデルよりも優れていることを示す。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。