Fugu-MT 論文翻訳(概要): BiT: Robustly Binarized Multi-distilled Transformer

論文の概要: BiT: Robustly Binarized Multi-distilled Transformer

arxiv url: http://arxiv.org/abs/2205.13016v1
Date: Wed, 25 May 2022 19:01:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-27 13:24:06.909496
Title: BiT: Robustly Binarized Multi-distilled Transformer
Title（参考訳）: BiT:ロバストなバイナリ化マルチ蒸留トランス
Authors: Zechun Liu, Barlas Oguz, Aasish Pappu, Lin Xiao, Scott Yih, Meng Li, Raghuraman Krishnamoorthi, Yashar Mehdad
Abstract要約: 実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
参考スコア（独自算出の注目度）: 36.06192421902272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern pre-trained transformers have rapidly advanced the state-of-the-art in machine learning, but have also grown in parameters and computational complexity, making them increasingly difficult to deploy in resource-constrained environments. Binarization of the weights and activations of the network can significantly alleviate these issues, however is technically challenging from an optimization perspective. In this work, we identify a series of improvements which enables binary transformers at a much higher accuracy than what was possible previously. These include a two-set binarization scheme, a novel elastic binary activation function with learned parameters, and a method to quantize a network to its limit by successively distilling higher precision models into lower precision students. These approaches allow for the first time, fully binarized transformer models that are at a practical level of accuracy, approaching a full-precision BERT baseline on the GLUE language understanding benchmark within as little as 5.9%.
Abstract（参考訳）: 現代の事前学習型トランスフォーマーは、機械学習の最先端を急速に進歩させてきたが、パラメータや計算の複雑さも増大しており、リソースに制約のある環境でのデプロイがますます困難になっている。ネットワークの重みとアクティベーションのバイナリ化はこれらの問題を著しく軽減するが、技術的には最適化の観点から難しい。本研究では,従来よりもはるかに高精度なバイナリトランスフォーマーを実現する一連の改良点を明らかにする。これには、2セットの2値化スキーム、学習パラメータを持つ新しい弾性二値活性化関数、より精度の高いモデルを低精度の学生に連続的に蒸留することでネットワークをその限界まで量子化する方法が含まれる。これらのアプローチは、GLUE言語理解ベンチマークの完全なBERTベースラインに、ほぼ5.9%の精度でアプローチすることで、初めて完全に二項化されたトランスフォーマーモデルを実現する。

関連論文リスト

BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文参考訳（メタデータ） (2025-03-04T08:35:01Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials [27.573329030086676]
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。 BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
論文参考訳（メタデータ） (2023-12-14T13:42:57Z)
Partial Tensorized Transformers for Natural Language Processing [0.0]
本研究では,テンソル-トレイン分解による視覚言語ニューラルネットワーク(BERT, ViT)の精度向上と圧縮効果について検討した。我々の新しいPTNNアプローチは、トレーニング後の調整を必要とせず、既存のモデルの精度を最大5%向上させる。
論文参考訳（メタデータ） (2023-10-30T23:19:06Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision [45.69716658698776]
本稿では,トランスフォーマーによる低ビット量子化学習の難しさを識別する。本稿では,視覚と言語変換の両面での変動を考慮した量子化手法を提案する。我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、3.35%と1.4%の精度向上を実現した。
論文参考訳（メタデータ） (2023-07-01T13:01:39Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Understanding and Overcoming the Challenges of Efficient Transformer Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文参考訳（メタデータ） (2021-09-27T10:57:18Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。