論文の概要: Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary
- arxiv url: http://arxiv.org/abs/2205.02340v1
- Date: Wed, 4 May 2022 21:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 13:56:00.514056
- Title: Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary
- Title(参考訳): 語彙の減少を考慮したロシア語モデルの知識蒸留
- Authors: Alina Kolesnikova, Yuri Kuratov, Vasily Konovalov, Mikhail Burtsev
- Abstract要約: トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。
この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 0.1092387707389144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, transformer language models serve as a core component for majority of
natural language processing tasks. Industrial application of such models
requires minimization of computation time and memory footprint. Knowledge
distillation is one of approaches to address this goal. Existing methods in
this field are mainly focused on reducing the number of layers or dimension of
embeddings/hidden representations. Alternative option is to reduce the number
of tokens in vocabulary and therefore the embeddings matrix of the student
model. The main problem with vocabulary minimization is mismatch between input
sequences and output class distributions of a teacher and a student models. As
a result, it is impossible to directly apply KL-based knowledge distillation.
We propose two simple yet effective alignment techniques to make knowledge
distillation to the students with reduced vocabulary. Evaluation of distilled
models on a number of common benchmarks for Russian such as Russian SuperGLUE,
SberQuAD, RuSentiment, ParaPhaser, Collection-3 demonstrated that our
techniques allow to achieve compression from $17\times$ to $49\times$, while
maintaining quality of $1.7\times$ compressed student with the full-sized
vocabulary, but reduced number of Transformer layers only. We make our code and
distilled models available.
- Abstract(参考訳): 今日、トランスフォーマー言語モデルは、多くの自然言語処理タスクのコアコンポーネントとして機能している。
このようなモデルの産業的応用には、計算時間とメモリフットプリントの最小化が必要である。
知識蒸留はこの目的に対処するためのアプローチの1つである。
この分野での既存の手法は主に層数や埋め込み/隠れ表現の次元を減らすことに焦点を当てている。
別の選択肢は、語彙のトークンの数を減らすことであり、それゆえ学生モデルの埋め込み行列である。
語彙最小化の主な問題は、教師と生徒モデルの入力シーケンスと出力クラス分布のミスマッチである。
その結果、KLに基づく知識蒸留を直接適用することは不可能である。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
ロシアのSuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 など,ロシアの一般的なベンチマークにおける蒸留モデルの評価では,我々の技術は,フルサイズの語彙を持つ1.7\times$圧縮学生の質を維持しながら,17\times$から49\times$まで圧縮を達成できることを示した。
コードと蒸留したモデルを利用可能にします。
関連論文リスト
- Are Intermediate Layers and Labels Really Necessary? A General Language
Model Distillation Method [14.423829182894345]
本稿では,2段階の単語予測蒸留と語彙圧縮を行う汎用言語モデル蒸留(GLMD)手法を提案する。
実験の結果,提案手法はSuperGLUEベンチマークで25の最先端手法より優れており,最良手法を3%上回る平均スコアが得られた。
論文 参考訳(メタデータ) (2023-06-11T08:53:27Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文 参考訳(メタデータ) (2020-09-17T04:45:47Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。