論文の概要: Distilling Neural Networks for Greener and Faster Dependency Parsing
- arxiv url: http://arxiv.org/abs/2006.00844v1
- Date: Mon, 1 Jun 2020 10:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:08:18.198508
- Title: Distilling Neural Networks for Greener and Faster Dependency Parsing
- Title(参考訳): グリーンで高速な依存性解析のための蒸留ニューラルネットワーク
- Authors: Mark Anderson, Carlos G\'omez-Rodr\'iguez
- Abstract要約: 蒸留は、大きなモデルから小さなモデルへの知識付与を試みるネットワーク圧縮技術である。
本研究では, 教師留学生の蒸留技術を用いて, 最先端性能を得るバイファイン依存の効率向上を図る。
- 参考スコア(独自算出の注目度): 3.7311680121118345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The carbon footprint of natural language processing research has been
increasing in recent years due to its reliance on large and inefficient neural
network implementations. Distillation is a network compression technique which
attempts to impart knowledge from a large model to a smaller one. We use
teacher-student distillation to improve the efficiency of the Biaffine
dependency parser which obtains state-of-the-art performance with respect to
accuracy and parsing speed (Dozat and Manning, 2017). When distilling to 20\%
of the original model's trainable parameters, we only observe an average
decrease of $\sim$1 point for both UAS and LAS across a number of diverse
Universal Dependency treebanks while being 2.30x (1.19x) faster than the
baseline model on CPU (GPU) at inference time. We also observe a small increase
in performance when compressing to 80\% for some treebanks. Finally, through
distillation we attain a parser which is not only faster but also more accurate
than the fastest modern parser on the Penn Treebank.
- Abstract(参考訳): 自然言語処理研究の炭素フットプリントは、大規模で非効率的なニューラルネットワークの実装に依存しているため、近年増加している。
蒸留は、大きなモデルから小さなモデルへの知識を付与しようとするネットワーク圧縮技術である。
教師・学生蒸留法を用いて,精度と解析速度に関して最先端のパフォーマンスを得るバイアフィン依存型パーサーの効率を向上させる(dozat and manning, 2017)。
元のモデルのトレーニング可能なパラメータの20%まで蒸留すると、推論時にCPU(GPU)のベースラインモデルよりも2.30倍 (1.19倍)高速でありながら、UASとLASの両方で平均$\sim$1の減少しか観測できない。
また,木バンクの80%まで圧縮した場合,若干の性能向上が観察された。
最後に、蒸留により、ペン・ツリーバンクで最速の近代的なパーサーよりも速いだけでなく、より正確なパーサーを得る。
関連論文リスト
- STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - To Boost or not to Boost: On the Limits of Boosted Neural Networks [67.67776094785363]
ブースティングは分類器のアンサンブルを学ぶ方法である。
ブースティングは決定木に非常に有効であることが示されているが、ニューラルネットワークへの影響は広く研究されていない。
単一のニューラルネットワークは通常、同じ数のパラメータを持つ小さなニューラルネットワークの強化されたアンサンブルよりもよく一般化される。
論文 参考訳(メタデータ) (2021-07-28T19:10:03Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - Parallel Blockwise Knowledge Distillation for Deep Neural Network
Compression [9.385246051507735]
本稿では,深層ニューラルネットワークの蒸留過程を高速化する並列ブロックワイド蒸留アルゴリズムを提案する。
我々のアルゴリズムは, VGG蒸留における3倍の高速化と19%の省エネ, 3.5倍の高速化とResNet蒸留における29%の省エネを実現している。
論文 参考訳(メタデータ) (2020-12-05T18:37:38Z) - Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。
本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文 参考訳(メタデータ) (2020-11-18T03:00:05Z) - Strongly Incremental Constituency Parsing with Graph Neural Networks [70.16880251349093]
文を構文木にパースすることは、NLPの下流アプリケーションに恩恵をもたらす。
トランジッションベースは、状態遷移システムでアクションを実行することでツリーを構築する。
既存のトランジションベースは主にシフト・リデュース・トランジション・システムに基づいている。
論文 参考訳(メタデータ) (2020-10-27T19:19:38Z) - SmBoP: Semi-autoregressive Bottom-up Semantic Parsing [44.802643057976354]
半自己回帰的ボトムアップ (SmBoP) を提案する。これはデコードステップ$t$で構築され、高さ$leq t$の上位$K$サブツリーである。
効率の観点からすると、ボトムアップパーシングは、ある高さのすべてのサブツリーを並列にデコードすることができ、線形ではなく対数複雑性ランタイムに繋がる。
我々は、難易度ゼロショットセマンティック解析のベンチマークであるSpiderにSmBoPを適用し、SmBoPが復号時の2.2倍のスピードアップ、トレーニング時の5倍のスピードアップにつながることを示す。
論文 参考訳(メタデータ) (2020-10-23T14:02:32Z) - Efficient Constituency Parsing by Pointing [21.395573911155495]
本稿では,解析問題を一連のポインティングタスクにキャストする新しい選挙区解析モデルを提案する。
我々のモデルは効率的なトップダウンデコーディングをサポートしており、我々の学習目的は、高価なCKY推論に頼ることなく、構造的一貫性を強制することができる。
論文 参考訳(メタデータ) (2020-06-24T08:29:09Z) - Efficient Second-Order TreeCRF for Neural Dependency Parsing [23.426500262860777]
ディープラーニング(DL)時代には、構文解析モデルは極めて単純化され、性能にほとんど影響を与えない。
本稿では,2階目のTreeCRF拡張について述べる。
本研究では,内部とビタビアルゴリズムをバッチ化して直接大行列演算を行う手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T03:18:59Z) - The Tree Ensemble Layer: Differentiability meets Conditional Computation [8.40843862024745]
我々は、異なる決定木(ソフトツリー)のアンサンブルからなるニューラルネットワークのための新しいレイヤを導入する。
異なる木は文学において有望な結果を示すが、典型的には条件計算をサポートしないため、訓練と推論が遅い。
我々は、空間性を利用する特殊前方及び後方伝播アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-18T18:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。