論文の概要: Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary
- arxiv url: http://arxiv.org/abs/2205.02340v1
- Date: Wed, 4 May 2022 21:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 13:56:00.514056
- Title: Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary
- Title(参考訳): 語彙の減少を考慮したロシア語モデルの知識蒸留
- Authors: Alina Kolesnikova, Yuri Kuratov, Vasily Konovalov, Mikhail Burtsev
- Abstract要約: トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。
この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 0.1092387707389144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, transformer language models serve as a core component for majority of
natural language processing tasks. Industrial application of such models
requires minimization of computation time and memory footprint. Knowledge
distillation is one of approaches to address this goal. Existing methods in
this field are mainly focused on reducing the number of layers or dimension of
embeddings/hidden representations. Alternative option is to reduce the number
of tokens in vocabulary and therefore the embeddings matrix of the student
model. The main problem with vocabulary minimization is mismatch between input
sequences and output class distributions of a teacher and a student models. As
a result, it is impossible to directly apply KL-based knowledge distillation.
We propose two simple yet effective alignment techniques to make knowledge
distillation to the students with reduced vocabulary. Evaluation of distilled
models on a number of common benchmarks for Russian such as Russian SuperGLUE,
SberQuAD, RuSentiment, ParaPhaser, Collection-3 demonstrated that our
techniques allow to achieve compression from $17\times$ to $49\times$, while
maintaining quality of $1.7\times$ compressed student with the full-sized
vocabulary, but reduced number of Transformer layers only. We make our code and
distilled models available.
- Abstract(参考訳): 今日、トランスフォーマー言語モデルは、多くの自然言語処理タスクのコアコンポーネントとして機能している。
このようなモデルの産業的応用には、計算時間とメモリフットプリントの最小化が必要である。
知識蒸留はこの目的に対処するためのアプローチの1つである。
この分野での既存の手法は主に層数や埋め込み/隠れ表現の次元を減らすことに焦点を当てている。
別の選択肢は、語彙のトークンの数を減らすことであり、それゆえ学生モデルの埋め込み行列である。
語彙最小化の主な問題は、教師と生徒モデルの入力シーケンスと出力クラス分布のミスマッチである。
その結果、KLに基づく知識蒸留を直接適用することは不可能である。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
ロシアのSuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 など,ロシアの一般的なベンチマークにおける蒸留モデルの評価では,我々の技術は,フルサイズの語彙を持つ1.7\times$圧縮学生の質を維持しながら,17\times$から49\times$まで圧縮を達成できることを示した。
コードと蒸留したモデルを利用可能にします。
関連論文リスト
- MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Are Intermediate Layers and Labels Really Necessary? A General Language
Model Distillation Method [14.423829182894345]
本稿では,2段階の単語予測蒸留と語彙圧縮を行う汎用言語モデル蒸留(GLMD)手法を提案する。
実験の結果,提案手法はSuperGLUEベンチマークで25の最先端手法より優れており,最良手法を3%上回る平均スコアが得られた。
論文 参考訳(メタデータ) (2023-06-11T08:53:27Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文 参考訳(メタデータ) (2020-09-17T04:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。