論文の概要: BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials
- arxiv url: http://arxiv.org/abs/2312.08937v2
- Date: Thu, 20 Jun 2024 05:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:58:16.090968
- Title: BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials
- Title(参考訳): BiPFT:二元化残留多項式の低ランク推定による二元化事前学習ファンデーショントランス
- Authors: Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng Zhang, Jiajun Zhang,
- Abstract要約: 本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
- 参考スコア(独自算出の注目度): 27.573329030086676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretrained foundation models offer substantial benefits for a wide range of downstream tasks, which can be one of the most potential techniques to access artificial general intelligence. However, scaling up foundation transformers for maximal task-agnostic knowledge has brought about computational challenges, especially on resource-limited devices such as mobiles. This work proposes the first Binary Pretrained Foundation Transformer (BiPFT) for natural language understanding (NLU) tasks, which remarkably saves 56 times operations and 28 times memory. In contrast to previous task-specific binary transformers, BiPFT exhibits a substantial enhancement in the learning capabilities of binary neural networks (BNNs), promoting BNNs into the era of pre-training. Benefiting from extensive pretraining data, we further propose a data-driven binarization method. Specifically, we first analyze the binarization error in self-attention operations and derive the polynomials of binarization error. To simulate full-precision self-attention, we define binarization error as binarization residual polynomials, and then introduce low-rank estimators to model these polynomials. Extensive experiments validate the effectiveness of BiPFTs, surpassing task-specific baseline by 15.4% average performance on the GLUE benchmark. BiPFT also demonstrates improved robustness to hyperparameter changes, improved optimization efficiency, and reduced reliance on downstream distillation, which consequently generalize on various NLU tasks and simplify the downstream pipeline of BNNs. Our code and pretrained models are publicly available at https://github.com/Xingrun-Xing/BiPFT.
- Abstract(参考訳): 事前訓練された基礎モデルは、幅広い下流タスクに実質的な利点をもたらす。
しかし、最大タスクに依存しない知識のための基礎変換器のスケールアップは、特にモバイルのようなリソース制限されたデバイスにおいて、計算上の問題を引き起こしている。
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
従来のタスク固有のバイナリトランスフォーマーとは対照的に、BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させ、BNNを事前トレーニングの時代に促進している。
さらに,事前学習データからデータ駆動バイナライゼーション手法を提案する。
具体的には,まず自己注意操作における二項化誤差を分析し,二項化誤差の多項式を導出する。
完全精度自己アテンションをシミュレートするために、二項化誤差を二項化残差多項式として定義し、これらの多項式をモデル化するための低ランク推定器を導入する。
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
BiPFTはまた、ハイパーパラメータの変更に対するロバスト性の向上、最適化効率の向上、下流蒸留への依存の低減など、様々なNLUタスクを一般化し、BNNの下流パイプラインを簡素化する。
私たちのコードと事前訓練されたモデルはhttps://github.com/Xingrun-Xing/BiPFT.comで公開されています。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - Efficient Multitask Dense Predictor via Binarization [19.5100813204537]
資源集約型マルチタスク密度予測器を圧縮するために,ネットワークバイナライゼーションを導入する。
両立マルチタスクDense Predictor, Bi-MTDP, およびいくつかの種類のBi-MTDPを提案する。
Bi-MTDPの1つの変種は、フル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)より優れている
論文 参考訳(メタデータ) (2024-05-23T03:19:23Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Input Layer Binarization with Bit-Plane Encoding [4.872439392746007]
本稿では,入力データの8ビット表現を直接利用して,第1層をバイナライズする手法を提案する。
得られたモデルは完全にバイナライズされ、第1層バイナライズアプローチはモデル独立です。
論文 参考訳(メタデータ) (2023-05-04T14:49:07Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Network Binarization via Contrastive Learning [16.274341164897827]
バイナリニューラルネットワーク(BNN)を訓練しながら、新しいコントラスト学習フレームワークを構築する。
MIはバイナリとFPのアクティベーション間で共有される情報を計測する指標として導入された。
以上の結果から,本手法は既存の最先端バイナライズ手法の重ね合わせモジュールとして実装可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-06T21:04:53Z) - BiT: Robustly Binarized Multi-distilled Transformer [36.06192421902272]
実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。
これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
論文 参考訳(メタデータ) (2022-05-25T19:01:54Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - A Meta-Learning Approach to the Optimal Power Flow Problem Under
Topology Reconfigurations [69.73803123972297]
メタラーニング(MTL)アプローチを用いて訓練されたDNNベースのOPF予測器を提案する。
開発したOPF予測器はベンチマークIEEEバスシステムを用いてシミュレーションにより検証される。
論文 参考訳(メタデータ) (2020-12-21T17:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。