論文の概要: Lightweight Model Pre-training via Language Guided Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2406.11689v1
- Date: Mon, 17 Jun 2024 16:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:53:20.921062
- Title: Lightweight Model Pre-training via Language Guided Knowledge Distillation
- Title(参考訳): 言語指導型知識蒸留による軽量モデル事前学習
- Authors: Mingsheng Li, Lin Zhang, Mingzhen Zhu, Zilong Huang, Gang Yu, Jiayuan Fan, Tao Chen,
- Abstract要約: 本稿では,多くのモバイルデバイスにおいて不可欠な小型モデルの事前学習の問題について検討する。
本稿では,教師と学生の間で伝達される知識の洗練を支援するために,目標下流タスクのカテゴリ名を用いた言語ガイド蒸留(LGD)システムを提案する。
実験結果から,LGD法を用いた蒸留軽量モデルは最先端性能を示し,分類,検出,セグメンテーションなど,様々な下流タスクで検証された。
- 参考スコア(独自算出の注目度): 28.693835349747598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of pre-training for small models, which is essential for many mobile devices. Current state-of-the-art methods on this problem transfer the representational knowledge of a large network (as a Teacher) into a smaller model (as a Student) using self-supervised distillation, improving the performance of the small model on downstream tasks. However, existing approaches are insufficient in extracting the crucial knowledge that is useful for discerning categories in downstream tasks during the distillation process. In this paper, for the first time, we introduce language guidance to the distillation process and propose a new method named Language-Guided Distillation (LGD) system, which uses category names of the target downstream task to help refine the knowledge transferred between the teacher and student. To this end, we utilize a pre-trained text encoder to extract semantic embeddings from language and construct a textual semantic space called Textual Semantics Bank (TSB). Furthermore, we design a Language-Guided Knowledge Aggregation (LGKA) module to construct the visual semantic space, also named Visual Semantics Bank (VSB). The task-related knowledge is transferred by driving a student encoder to mimic the similarity score distribution inferred by a teacher over TSB and VSB. Compared with other small models obtained by either ImageNet pre-training or self-supervised distillation, experiment results show that the distilled lightweight model using the proposed LGD method presents state-of-the-art performance and is validated on various downstream tasks, including classification, detection, and segmentation. We have made the code available at https://github.com/mZhenz/LGD.
- Abstract(参考訳): 本稿では,多くのモバイルデバイスにおいて不可欠な小型モデルの事前学習の問題について検討する。
この問題の最先端の手法は、教師としての)大規模ネットワークの表現的知識を、自己監督蒸留を用いて(学生としての)より小さなモデルに伝達し、下流タスクにおける小さなモデルの性能を向上させる。
しかし, 既存の手法は, 蒸留工程における下流作業におけるカテゴリ識別に有用な重要な知識を抽出するには不十分である。
本稿では,蒸留プロセスに初めて言語指導を導入し,教師と学生の間で伝達される知識の洗練を支援するために,目標下流タスクのカテゴリ名を用いた言語誘導蒸留(LGD)システムを提案する。
この目的のために、事前学習されたテキストエンコーダを用いて、言語からのセマンティック埋め込みを抽出し、テキストセマンティックスバンク(TSB)と呼ばれるテキストセマンティックス空間を構築する。
さらに,ビジュアルセマンティックスバンク (VSB) と呼ばれるビジュアルセマンティックス空間を構築するための言語ガイド型知識集約 (LGKA) モジュールを設計する。
タスク関連知識は、生徒エンコーダを駆動して、TSBおよびVSB上で教師が推定する類似度スコア分布を模倣することにより伝達される。
提案したLGD法を用いた蒸留軽量モデルは,ImageNetプレトレーニングまたは自己監督蒸留のいずれかによって得られた他の小型モデルと比較して,最先端性能を示し,分類,検出,セグメンテーションなどの下流タスクで検証された。
コードはhttps://github.com/mZhenz/LGD.comで公開しています。
関連論文リスト
- Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval [44.61221990245263]
ハッシュの学習は、高速な検索速度と低ストレージコストを提供する、効率的な検索のための実用的なソリューションである。
本研究は, 学習能力の向上と, 強力な事前学習モデルの普及を両立させる可能性を探るものである。
ハッシュ表現学習を改善するために,DCMQ (Distillation for Cross-Modal Quantization) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:54:59Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - WIDER & CLOSER: Mixture of Short-channel Distillers for Zero-shot
Cross-lingual Named Entity Recognition [45.69979439311364]
言語横断的なエンティティ認識(NER)は、ソース言語のアノテーション付きおよびリッチリソースデータからターゲット言語のラベルなしおよびリーンリソースデータへの知識の転送を目的としている。
教師と学生の蒸留フレームワークに基づく既存の主流の手法は、事前訓練された言語モデルの中間層に存在する豊かで相補的な情報を無視する。
本研究では,教師モデルにおける豊富な階層情報を完全にやりとりし,学生モデルに知識を十分かつ効率的に伝達するために,短チャネル蒸留器(MSD)の混合方式を提案する。
論文 参考訳(メタデータ) (2022-12-07T08:13:22Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Distilling Linguistic Context for Language Model Compression [27.538080564616703]
計算コストが高く、メモリ集約型ニューラルネットワークは、最近の言語表現学習の成功の背後にある。
本稿では,2種類の関係を通して文脈知識を伝達する言語表現学習のための新しい知識蒸留目標を提案する。
言語理解タスクの挑戦的ベンチマークにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-17T05:51:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。