論文の概要: BiPFT: Binary Pre-trained Foundation Transformer with Low-rank
Estimation of Binarization Residual Polynomials
- arxiv url: http://arxiv.org/abs/2312.08937v1
- Date: Thu, 14 Dec 2023 13:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:02:42.810508
- Title: BiPFT: Binary Pre-trained Foundation Transformer with Low-rank
Estimation of Binarization Residual Polynomials
- Title(参考訳): BiPFT:二元化残留多項式の低ランク推定による二元化事前学習ファンデーショントランス
- Authors: Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng
Zhang, Jiajun Zhang
- Abstract要約: 本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
- 参考スコア(独自算出の注目度): 28.95601348489652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretrained foundation models offer substantial benefits for a wide range of
downstream tasks, which can be one of the most potential techniques to access
artificial general intelligence. However, scaling up foundation transformers
for maximal task-agnostic knowledge has brought about computational challenges,
especially on resource-limited devices such as mobiles. This work proposes the
first Binary Pretrained Foundation Transformer (BiPFT) for natural language
understanding (NLU) tasks, which remarkably saves 56 times operations and 28
times memory. In contrast to previous task-specific binary transformers, BiPFT
exhibits a substantial enhancement in the learning capabilities of binary
neural networks (BNNs), promoting BNNs into the era of pre-training. Benefiting
from extensive pretraining data, we further propose a data-driven binarization
method. Specifically, we first analyze the binarization error in self-attention
operations and derive the polynomials of binarization error. To simulate
full-precision self-attention, we define binarization error as binarization
residual polynomials, and then introduce low-rank estimators to model these
polynomials. Extensive experiments validate the effectiveness of BiPFTs,
surpassing task-specific baseline by 15.4% average performance on the GLUE
benchmark. BiPFT also demonstrates improved robustness to hyperparameter
changes, improved optimization efficiency, and reduced reliance on downstream
distillation, which consequently generalize on various NLU tasks and simplify
the downstream pipeline of BNNs. Our code and pretrained models are publicly
available at https://github.com/Xingrun-Xing/BiPFT.
- Abstract(参考訳): トレーニング済みの基礎モデルは、人工知能にアクセスする最も潜在的なテクニックの1つである、幅広い下流タスクにかなりのメリットを提供する。
しかし、最大タスクに依存しない知識のための基盤トランスフォーマーのスケールアップは、特にモバイルのようなリソース制限されたデバイスにおいて、計算上の課題をもたらした。
本研究は、自然言語理解(nlu)タスクのための最初のバイナリプリトレーニング基盤トランスフォーマ(bipft)を提案し、56回の操作と28回のメモリを著しく節約する。
従来のタスク固有のバイナリトランスフォーマーとは対照的に、BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させ、BNNを事前トレーニングの時代に促進している。
広範な事前トレーニングデータの恩恵を受け,データ駆動二元化法も提案する。
具体的には,まず自己アテンション演算における二元化誤差を分析し,二元化誤差の多項式を導出する。
完全精度自己追尾をシミュレートするために,二元化誤差を二元化残差多項式として定義し,これらの多項式をモデル化するために低階推定器を導入する。
大規模な実験は、GLUEベンチマークでタスク固有のベースラインを15.4%上回るBiPFTの有効性を検証する。
BiPFTはまた、ハイパーパラメータの変更に対するロバスト性の向上、最適化効率の向上、下流蒸留への依存の低減など、様々なNLUタスクを一般化し、BNNの下流パイプラインを簡素化する。
私たちのコードと事前訓練されたモデルはhttps://github.com/Xingrun-Xing/BiPFT.comで公開されています。
関連論文リスト
- Efficient Multitask Dense Predictor via Binarization [19.5100813204537]
資源集約型マルチタスク密度予測器を圧縮するために,ネットワークバイナライゼーションを導入する。
両立マルチタスクDense Predictor, Bi-MTDP, およびいくつかの種類のBi-MTDPを提案する。
Bi-MTDPの1つの変種は、フル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)より優れている
論文 参考訳(メタデータ) (2024-05-23T03:19:23Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Input Layer Binarization with Bit-Plane Encoding [4.872439392746007]
本稿では,入力データの8ビット表現を直接利用して,第1層をバイナライズする手法を提案する。
得られたモデルは完全にバイナライズされ、第1層バイナライズアプローチはモデル独立です。
論文 参考訳(メタデータ) (2023-05-04T14:49:07Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Network Binarization via Contrastive Learning [16.274341164897827]
バイナリニューラルネットワーク(BNN)を訓練しながら、新しいコントラスト学習フレームワークを構築する。
MIはバイナリとFPのアクティベーション間で共有される情報を計測する指標として導入された。
以上の結果から,本手法は既存の最先端バイナライズ手法の重ね合わせモジュールとして実装可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-06T21:04:53Z) - BiT: Robustly Binarized Multi-distilled Transformer [36.06192421902272]
実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。
これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
論文 参考訳(メタデータ) (2022-05-25T19:01:54Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - A Meta-Learning Approach to the Optimal Power Flow Problem Under
Topology Reconfigurations [69.73803123972297]
メタラーニング(MTL)アプローチを用いて訓練されたDNNベースのOPF予測器を提案する。
開発したOPF予測器はベンチマークIEEEバスシステムを用いてシミュレーションにより検証される。
論文 参考訳(メタデータ) (2020-12-21T17:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。