Fugu-MT 論文翻訳(概要): Knowledge Distillation of Russian Language Models with Reduction of Vocabulary

論文の概要: Knowledge Distillation of Russian Language Models with Reduction of Vocabulary

arxiv url: http://arxiv.org/abs/2205.02340v1
Date: Wed, 4 May 2022 21:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-06 13:56:00.514056
Title: Knowledge Distillation of Russian Language Models with Reduction of Vocabulary
Title（参考訳）: 語彙の減少を考慮したロシア語モデルの知識蒸留
Authors: Alina Kolesnikova, Yuri Kuratov, Vasily Konovalov, Mikhail Burtsev
Abstract要約: トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
参考スコア（独自算出の注目度）: 0.1092387707389144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Today, transformer language models serve as a core component for majority of natural language processing tasks. Industrial application of such models requires minimization of computation time and memory footprint. Knowledge distillation is one of approaches to address this goal. Existing methods in this field are mainly focused on reducing the number of layers or dimension of embeddings/hidden representations. Alternative option is to reduce the number of tokens in vocabulary and therefore the embeddings matrix of the student model. The main problem with vocabulary minimization is mismatch between input sequences and output class distributions of a teacher and a student models. As a result, it is impossible to directly apply KL-based knowledge distillation. We propose two simple yet effective alignment techniques to make knowledge distillation to the students with reduced vocabulary. Evaluation of distilled models on a number of common benchmarks for Russian such as Russian SuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 demonstrated that our techniques allow to achieve compression from $17\times$ to $49\times$, while maintaining quality of $1.7\times$ compressed student with the full-sized vocabulary, but reduced number of Transformer layers only. We make our code and distilled models available.
Abstract（参考訳）: 今日、トランスフォーマー言語モデルは、多くの自然言語処理タスクのコアコンポーネントとして機能している。このようなモデルの産業的応用には、計算時間とメモリフットプリントの最小化が必要である。知識蒸留はこの目的に対処するためのアプローチの1つである。この分野での既存の手法は主に層数や埋め込み/隠れ表現の次元を減らすことに焦点を当てている。別の選択肢は、語彙のトークンの数を減らすことであり、それゆえ学生モデルの埋め込み行列である。語彙最小化の主な問題は、教師と生徒モデルの入力シーケンスと出力クラス分布のミスマッチである。その結果、KLに基づく知識蒸留を直接適用することは不可能である。語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。ロシアのSuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 など,ロシアの一般的なベンチマークにおける蒸留モデルの評価では,我々の技術は,フルサイズの語彙を持つ1.7\times$圧縮学生の質を維持しながら,17\times$から49\times$まで圧縮を達成できることを示した。コードと蒸留したモデルを利用可能にします。

関連論文リスト

TokAlign: Efficient Vocabulary Adaptation via Token Alignment [41.59130966729569]
トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
論文参考訳（メタデータ） (2025-06-04T03:15:57Z)
On Multilingual Encoder Language Model Compression for Low-Resource Languages [10.868526090169283]
本稿では,多言語エンコーダのみの言語モデルに対して,2段階の知識蒸留,構造化プルーニング,トランケーション,ボキャブラリトリミングを組み合わせる。圧縮速度は最大92%で、4つの下流タスクで2-10%の限界性能低下しか達成できません。特に、パフォーマンス劣化は教師モデルにおける言語固有のデータの量と相関し、より大きなデータセットはパフォーマンス損失を小さくする。
論文参考訳（メタデータ） (2025-05-22T17:35:39Z)
Multi-Sense Embeddings for Language Models and Knowledge Distillation [17.559171180573664]
変換器ベースの大規模言語モデル(LLM)は、周囲のコンテキストに応じて同じトークンに対して異なる表現を生成するコンテキスト埋め込みに依存している。本稿では,各トークンのドロップイン置換としてマルチセンス埋め込みを提案し,その使用範囲を言語で把握する。
論文参考訳（メタデータ） (2025-04-08T13:36:36Z)
MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文参考訳（メタデータ） (2024-01-09T21:09:07Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method [14.423829182894345]
本稿では,2段階の単語予測蒸留と語彙圧縮を行う汎用言語モデル蒸留(GLMD)手法を提案する。実験の結果,提案手法はSuperGLUEベンチマークで25の最先端手法より優れており,最良手法を3%上回る平均スコアが得られた。
論文参考訳（メタデータ） (2023-06-11T08:53:27Z)
Too Brittle To Touch: Comparing the Stability of Quantization and Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文参考訳（メタデータ） (2022-10-27T05:30:13Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
PERFECT: Prompt-free and Efficient Few-shot Learning with Language Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文参考訳（メタデータ） (2022-04-03T22:31:25Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
Efficient Transformer-based Large Scale Language Representations using Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文参考訳（メタデータ） (2020-09-17T04:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。