論文の概要: Binary and Ternary Natural Language Generation
- arxiv url: http://arxiv.org/abs/2306.01841v1
- Date: Fri, 2 Jun 2023 18:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:52:12.117146
- Title: Binary and Ternary Natural Language Generation
- Title(参考訳): 二元および三元自然言語生成
- Authors: Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman
Krishnamoorthi
- Abstract要約: 三項ニューラルネットワークと二項ニューラルネットワークは、乗算不要な計算を可能にする。
完全精度ネットワーク上では、複数の桁の効率向上を約束する。
しかし、そのようなネットワークの最適化は非常に困難であることが証明されている。
要約および機械翻訳の下流タスクにおいて、第1次および第2次変換器モデルを示す。
- 参考スコア(独自算出の注目度): 24.295815261826153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ternary and binary neural networks enable multiplication-free computation and
promise multiple orders of magnitude efficiency gains over full-precision
networks if implemented on specialized hardware. However, since both the
parameter and the output space are highly discretized, such networks have
proven very difficult to optimize. The difficulties are compounded for the
class of transformer text generation models due to the sensitivity of the
attention operation to quantization and the noise-compounding effects of
autoregressive decoding in the high-cardinality output space. We approach the
problem with a mix of statistics-based quantization for the weights and elastic
quantization of the activations and demonstrate the first ternary and binary
transformer models on the downstream tasks of summarization and machine
translation. Our ternary BART base achieves an R1 score of 41 on the
CNN/DailyMail benchmark, which is merely 3.9 points behind the full model while
being 16x more efficient. Our binary model, while less accurate, achieves a
highly non-trivial score of 35.6. For machine translation, we achieved BLEU
scores of 21.7 and 17.6 on the WMT16 En-Ro benchmark, compared with a full
precision mBART model score of 26.8. We also compare our approach in the 8-bit
activation setting, where our ternary and even binary weight models can match
or outperform the best existing 8-bit weight models in the literature. Our code
and models are available at:
https://github.com/facebookresearch/Ternary_Binary_Transformer
- Abstract(参考訳): 三元系および二元系ニューラルネットワークは、乗算フリーな計算を可能にし、専用ハードウェア上で実装された場合、全精度ネットワークよりも数桁の効率向上を約束する。
しかし、パラメータも出力空間も非常に離散化されているため、そのようなネットワークの最適化は非常に困難であることが証明されている。
また, 量子化に対する注意操作の感度や, 自己回帰デコードによる高カーディナリティ出力空間のノイズ圧縮効果により, トランスフォーマティブテキスト生成モデルでは難易度が高められた。
そこで本研究では,アクティベーションの重みと弾性量子化に対する統計に基づく量子化の混合を用いてこの問題にアプローチし,要約と機械翻訳の下流タスクにおいて,第1次および第2次トランスフォーマーモデルを示す。
私たちの3つのBARTベースは、CNN/DailyMailベンチマークでR1スコア41に達しています。
我々のバイナリモデルは精度は低いが、非常に非自明なスコアは35.6である。
機械翻訳では,WMT16 En-RoベンチマークでBLEUスコア21.7と17.6を,mBARTモデルスコア26.8と比較した。
我々はまた、我々のアプローチを8ビットのアクティベーション設定で比較し、我々の3次および2次重みモデルでさえ、文献において最も優れた8ビット重みモデルに適合または優れる。
私たちのコードとモデルは、https://github.com/facebookresearch/Ternary_Binary_Transformerで利用可能です。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。
最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。
ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文 参考訳(メタデータ) (2022-08-17T05:43:33Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Analog Bits: Generating Discrete Data using Diffusion Models with
Self-Conditioning [90.02873747873444]
ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。
提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。
MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
論文 参考訳(メタデータ) (2022-08-08T15:08:40Z) - Soft Threshold Ternary Networks [36.722958963130665]
以前の三元化ニューラルネットワークでは、量子化間隔を決定するためにハードしきい値デルタが導入された。
本稿では,モデルが量子化間隔を自動的に決定することのできるソフト・スレッショルド・ターナリー・ネットワーク(STTN)を提案する。
提案手法は, 最先端ネットワークと極低ビットネットワーク間の性能ギャップを小さくし, 現状を劇的に改善する。
論文 参考訳(メタデータ) (2022-04-04T04:43:42Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Binarization Methods for Motor-Imagery Brain-Computer Interface
Classification [18.722731794073756]
本稿では,実数値重みを2進数に変換する手法を提案する。
2次埋め込みの次元を調整することにより、4級MI(leq$1.27%以下)で、float16重みを持つモデルと比較してほぼ同じ精度を達成する。
提案手法は,CNNの完全連結層をバイポーラランダムプロジェクションを用いたバイナリ拡張メモリに置き換える。
論文 参考訳(メタデータ) (2020-10-14T12:28:18Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。