論文の概要: BiT: Robustly Binarized Multi-distilled Transformer
- arxiv url: http://arxiv.org/abs/2205.13016v1
- Date: Wed, 25 May 2022 19:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:24:06.909496
- Title: BiT: Robustly Binarized Multi-distilled Transformer
- Title(参考訳): BiT:ロバストなバイナリ化マルチ蒸留トランス
- Authors: Zechun Liu, Barlas Oguz, Aasish Pappu, Lin Xiao, Scott Yih, Meng Li,
Raghuraman Krishnamoorthi, Yashar Mehdad
- Abstract要約: 実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。
これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
- 参考スコア(独自算出の注目度): 36.06192421902272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern pre-trained transformers have rapidly advanced the state-of-the-art in
machine learning, but have also grown in parameters and computational
complexity, making them increasingly difficult to deploy in
resource-constrained environments. Binarization of the weights and activations
of the network can significantly alleviate these issues, however is technically
challenging from an optimization perspective. In this work, we identify a
series of improvements which enables binary transformers at a much higher
accuracy than what was possible previously. These include a two-set
binarization scheme, a novel elastic binary activation function with learned
parameters, and a method to quantize a network to its limit by successively
distilling higher precision models into lower precision students. These
approaches allow for the first time, fully binarized transformer models that
are at a practical level of accuracy, approaching a full-precision BERT
baseline on the GLUE language understanding benchmark within as little as 5.9%.
- Abstract(参考訳): 現代の事前学習型トランスフォーマーは、機械学習の最先端を急速に進歩させてきたが、パラメータや計算の複雑さも増大しており、リソースに制約のある環境でのデプロイがますます困難になっている。
ネットワークの重みとアクティベーションのバイナリ化はこれらの問題を著しく軽減するが、技術的には最適化の観点から難しい。
本研究では,従来よりもはるかに高精度なバイナリトランスフォーマーを実現する一連の改良点を明らかにする。
これには、2セットの2値化スキーム、学習パラメータを持つ新しい弾性二値活性化関数、より精度の高いモデルを低精度の学生に連続的に蒸留することでネットワークをその限界まで量子化する方法が含まれる。
これらのアプローチは、GLUE言語理解ベンチマークの完全なBERTベースラインに、ほぼ5.9%の精度でアプローチすることで、初めて完全に二項化されたトランスフォーマーモデルを実現する。
関連論文リスト
- BiPFT: Binary Pre-trained Foundation Transformer with Low-rank
Estimation of Binarization Residual Polynomials [28.95601348489652]
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-14T13:42:57Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Partial Tensorized Transformers for Natural Language Processing [0.0]
本研究では,テンソル-トレイン分解による視覚言語ニューラルネットワーク(BERT, ViT)の精度向上と圧縮効果について検討した。
我々の新しいPTNNアプローチは、トレーニング後の調整を必要とせず、既存のモデルの精度を最大5%向上させる。
論文 参考訳(メタデータ) (2023-10-30T23:19:06Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Binary stochasticity enabled highly efficient neuromorphic deep learning
achieves better-than-software accuracy [17.11946381948498]
ディープラーニングには、フォワーディング信号の高精度処理、バックプロパゲーションエラー、ウェイトのアップデートが必要だ。
ノイズの多いアナログ・メムリスタを人工シナプスとして使用するハードウェアシステムでディープラーニングを実装することは困難である。
本稿では,全ての基本的ニューラルネットワーク操作を修飾する二進学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-25T14:38:36Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。