Fugu-MT 論文翻訳(概要): BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials

論文の概要: BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials

arxiv url: http://arxiv.org/abs/2312.08937v1
Date: Thu, 14 Dec 2023 13:42:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 22:02:42.810508
Title: BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials
Title（参考訳）: BiPFT:二元化残留多項式の低ランク推定による二元化事前学習ファンデーショントランス
Authors: Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng Zhang, Jiajun Zhang
Abstract要約: 本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。 BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
参考スコア（独自算出の注目度）: 28.95601348489652
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Pretrained foundation models offer substantial benefits for a wide range of downstream tasks, which can be one of the most potential techniques to access artificial general intelligence. However, scaling up foundation transformers for maximal task-agnostic knowledge has brought about computational challenges, especially on resource-limited devices such as mobiles. This work proposes the first Binary Pretrained Foundation Transformer (BiPFT) for natural language understanding (NLU) tasks, which remarkably saves 56 times operations and 28 times memory. In contrast to previous task-specific binary transformers, BiPFT exhibits a substantial enhancement in the learning capabilities of binary neural networks (BNNs), promoting BNNs into the era of pre-training. Benefiting from extensive pretraining data, we further propose a data-driven binarization method. Specifically, we first analyze the binarization error in self-attention operations and derive the polynomials of binarization error. To simulate full-precision self-attention, we define binarization error as binarization residual polynomials, and then introduce low-rank estimators to model these polynomials. Extensive experiments validate the effectiveness of BiPFTs, surpassing task-specific baseline by 15.4% average performance on the GLUE benchmark. BiPFT also demonstrates improved robustness to hyperparameter changes, improved optimization efficiency, and reduced reliance on downstream distillation, which consequently generalize on various NLU tasks and simplify the downstream pipeline of BNNs. Our code and pretrained models are publicly available at https://github.com/Xingrun-Xing/BiPFT.
Abstract（参考訳）: トレーニング済みの基礎モデルは、人工知能にアクセスする最も潜在的なテクニックの1つである、幅広い下流タスクにかなりのメリットを提供する。しかし、最大タスクに依存しない知識のための基盤トランスフォーマーのスケールアップは、特にモバイルのようなリソース制限されたデバイスにおいて、計算上の課題をもたらした。本研究は、自然言語理解(nlu)タスクのための最初のバイナリプリトレーニング基盤トランスフォーマ(bipft)を提案し、56回の操作と28回のメモリを著しく節約する。従来のタスク固有のバイナリトランスフォーマーとは対照的に、BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させ、BNNを事前トレーニングの時代に促進している。広範な事前トレーニングデータの恩恵を受け,データ駆動二元化法も提案する。具体的には,まず自己アテンション演算における二元化誤差を分析し,二元化誤差の多項式を導出する。完全精度自己追尾をシミュレートするために,二元化誤差を二元化残差多項式として定義し,これらの多項式をモデル化するために低階推定器を導入する。大規模な実験は、GLUEベンチマークでタスク固有のベースラインを15.4%上回るBiPFTの有効性を検証する。 BiPFTはまた、ハイパーパラメータの変更に対するロバスト性の向上、最適化効率の向上、下流蒸留への依存の低減など、様々なNLUタスクを一般化し、BNNの下流パイプラインを簡素化する。私たちのコードと事前訓練されたモデルはhttps://github.com/Xingrun-Xing/BiPFT.comで公開されています。

関連論文リスト

Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文参考訳（メタデータ） (2025-06-23T15:20:58Z)
BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文参考訳（メタデータ） (2025-03-04T08:35:01Z)
Training Multi-Layer Binary Neural Networks With Local Binary Error Signals [3.7740044597960316]
バイナリニューラルネットワーク(BNN)は、わずか1ビットでアクティベーションを表現することで、機械学習とディープラーニングにおける計算とメモリ使用量を削減する。 BNNの既存のトレーニングアルゴリズムの多くは、バイナリ操作のフル活用を制限する浮動小数点Descent(SGD)に依存している。そこで本研究では,BNNのトレーニングのための完全バイナリおよび勾配のないアルゴリズムを初めて提案する。
論文参考訳（メタデータ） (2024-11-28T09:12:04Z)
BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。 BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文参考訳（メタデータ） (2024-11-15T16:46:04Z)
Efficient Multitask Dense Predictor via Binarization [19.5100813204537]
資源集約型マルチタスク密度予測器を圧縮するために,ネットワークバイナライゼーションを導入する。両立マルチタスクDense Predictor, Bi-MTDP, およびいくつかの種類のBi-MTDPを提案する。 Bi-MTDPの1つの変種は、フル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)より優れている
論文参考訳（メタデータ） (2024-05-23T03:19:23Z)
Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。 BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文参考訳（メタデータ） (2023-10-23T17:32:38Z)
Input Layer Binarization with Bit-Plane Encoding [4.872439392746007]
本稿では,入力データの8ビット表現を直接利用して,第1層をバイナライズする手法を提案する。得られたモデルは完全にバイナライズされ、第1層バイナライズアプローチはモデル独立です。
論文参考訳（メタデータ） (2023-05-04T14:49:07Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文参考訳（メタデータ） (2022-09-04T06:45:33Z)
Network Binarization via Contrastive Learning [16.274341164897827]
バイナリニューラルネットワーク(BNN)を訓練しながら、新しいコントラスト学習フレームワークを構築する。 MIはバイナリとFPのアクティベーション間で共有される情報を計測する指標として導入された。以上の結果から,本手法は既存の最先端バイナライズ手法の重ね合わせモジュールとして実装可能であることが示唆された。
論文参考訳（メタデータ） (2022-07-06T21:04:53Z)
BiT: Robustly Binarized Multi-distilled Transformer [36.06192421902272]
実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
論文参考訳（メタデータ） (2022-05-25T19:01:54Z)
Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文参考訳（メタデータ） (2021-10-07T15:16:07Z)
A Meta-Learning Approach to the Optimal Power Flow Problem Under Topology Reconfigurations [69.73803123972297]
メタラーニング(MTL)アプローチを用いて訓練されたDNNベースのOPF予測器を提案する。開発したOPF予測器はベンチマークIEEEバスシステムを用いてシミュレーションにより検証される。
論文参考訳（メタデータ） (2020-12-21T17:39:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。