論文の概要: Learning Light-Weight Translation Models from Deep Transformer
- arxiv url: http://arxiv.org/abs/2012.13866v1
- Date: Sun, 27 Dec 2020 05:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 20:12:23.393001
- Title: Learning Light-Weight Translation Models from Deep Transformer
- Title(参考訳): 深層変圧器から軽量翻訳モデルを学ぶ
- Authors: Bei Li, Ziyang Wang, Hui Liu, Quan Du, Tong Xiao, Chunliang Zhang and
Jingbo Zhu
- Abstract要約: 本稿では,深部変圧器モデルを浅部モデルに圧縮するためのグループ置換に基づく知識蒸留手法を提案する。
私達の圧縮されたモデルはBLEUのほとんど損失無しで深いモデルより8X浅いです。
教師モデルをさらに強化するため,サブレイヤをランダムに省略してトレーニングに摂動を導入するスキップサブ層法を提案する。
- 参考スコア(独自算出の注目度): 25.386460662408773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep models have shown tremendous improvements in neural machine
translation (NMT). However, systems of this kind are computationally expensive
and memory intensive. In this paper, we take a natural step towards learning
strong but light-weight NMT systems. We proposed a novel group-permutation
based knowledge distillation approach to compressing the deep Transformer model
into a shallow model. The experimental results on several benchmarks validate
the effectiveness of our method. Our compressed model is 8X shallower than the
deep model, with almost no loss in BLEU. To further enhance the teacher model,
we present a Skipping Sub-Layer method to randomly omit sub-layers to introduce
perturbation into training, which achieves a BLEU score of 30.63 on
English-German newstest2014. The code is publicly available at
https://github.com/libeineu/GPKD.
- Abstract(参考訳): 近年,深層モデルでは,ニューラルネットワーク翻訳(nmt)が大幅に改善されている。
しかし、この種のシステムは計算コストが高く、メモリ集約的である。
本稿では,強力だが軽量なNMTシステムを学ぶための自然な一歩を踏み出す。
我々は,深部変圧器モデルを浅部モデルに圧縮するためのグループ置換に基づく知識蒸留手法を提案する。
いくつかのベンチマーク実験の結果から,本手法の有効性が検証された。
我々の圧縮モデルは深部モデルより8倍浅く、BLEUの損失はほとんどない。
教師モデルをさらに強化するため,英語-ドイツ語 newstest2014 において 30.63 の bleu スコアを達成するために,不規則にサブレイヤを省略してトレーニングに摂動を導入するためのスキップサブレイヤー法を提案する。
コードはhttps://github.com/libeineu/GPKDで公開されている。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Learning Kernel-Smoothed Machine Translation with Retrieved Examples [30.17061384497846]
データベースから類似の例を検索して翻訳プロセスを導く既存の非パラメトリックアプローチは有望であるが、検索した例に過度に適合する傾向にある。
我々は、ニューラルネットワーク翻訳モデルをオンラインで適応するための効果的なアプローチであるKSTER(Kernel-Smoothed Translation with Example Retrieval)を学習することを提案する。
論文 参考訳(メタデータ) (2021-09-21T06:42:53Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - Recurrent Stacking of Layers in Neural Networks: An Application to
Neural Machine Translation [18.782750537161615]
我々は、全ての層にパラメータを共有することで、繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。
我々は、パラメータが著しく少ないにもかかわらず、単一のレイヤを6回繰り返し積み重ねるモデルの翻訳品質が、各レイヤが異なるパラメータを持つ6つのレイヤを積み重ねるモデルの翻訳品質にアプローチすることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-18T08:48:01Z) - Shallow-to-Deep Training for Neural Machine Translation [42.62107851930165]
本稿では,高度に調整された深部変圧器システムの動作について検討する。
積層層はNMTモデルの表現能力の向上に有効であることがわかった。
これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
論文 参考訳(メタデータ) (2020-10-08T02:36:07Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。