論文の概要: Multiplication-Free Transformer Training via Piecewise Affine Operations
- arxiv url: http://arxiv.org/abs/2305.17190v2
- Date: Wed, 25 Oct 2023 10:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:43:19.806945
- Title: Multiplication-Free Transformer Training via Piecewise Affine Operations
- Title(参考訳): ピスワイズアフィン操作による乗算自由変換器訓練
- Authors: Atli Kosson, Martin Jaggi
- Abstract要約: 本稿では,浮動小数点数のビット表現を整数として加えることで実現した,安価なアフィン近似に置き換える。
変換器は、視覚と言語の両方のタスクに対して、結果の修正された行列乗法で、ほとんど、あるいは全く性能に影響を与えずに訓練できることが示される。
- 参考スコア(独自算出の注目度): 44.99157696237478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiplications are responsible for most of the computational cost involved
in neural network training and inference. Recent research has thus looked for
ways to reduce the cost associated with them. Inspired by Mogami (2020), we
replace multiplication with a cheap piecewise affine approximation that is
achieved by adding the bit representation of the floating point numbers
together as integers. We show that transformers can be trained with the
resulting modified matrix multiplications on both vision and language tasks
with little to no performance impact, and without changes to the training
hyperparameters. We further replace all non-linearities in the networks making
them fully and jointly piecewise affine in both inputs and weights. Finally, we
show that we can eliminate all multiplications in the entire training process,
including operations in the forward pass, backward pass and optimizer update,
demonstrating the first successful training of modern neural network
architectures in a fully multiplication-free fashion.
- Abstract(参考訳): 乗算は、ニューラルネットワークのトレーニングと推論に関わる計算コストの大部分に責任がある。
そのため、近年の研究はコスト削減の方法を模索している。
Mogami (2020) にインスパイアされた乗法は、浮動小数点数のビット表現を整数として加えることで実現される安価なアフィン近似に置き換える。
変換器は、視覚と言語の両方のタスクに修正された行列乗法で、ほとんど、あるいは全くパフォーマンスへの影響がなく、トレーニングのハイパーパラメータを変更することなく、トレーニングできることを示す。
入力と重みの両方において、ネットワーク内のすべての非線形性を完全かつ結合的にアフィンに置き換える。
最後に、フォワードパス、後方パス、オプティマイザ更新の操作を含む、トレーニングプロセス全体のすべての乗算を排除できることを示し、完全な乗算フリーの方法で、現代のニューラルネットワークアーキテクチャの最初のトレーニングが成功したことを示す。
関連論文リスト
- Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - Dissecting Multiplication in Transformers: Insights into LLMs [23.109124772063574]
本稿では,この領域における変圧器の不完全性を探索し,説明するために,典型的な算術的タスクである整数乗法に焦点を当てる。
n桁整数乗算を行うために訓練されたバニラ変圧器の包括的解析を行う。
乗算タスクにおける変換器の性能向上のための改良を提案する。
論文 参考訳(メタデータ) (2024-07-22T04:07:26Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Is Integer Arithmetic Enough for Deep Learning Training? [2.9136421025415205]
浮動小数点演算を低ビット整数演算に置き換えることは、ディープラーニングモデルのエネルギー、メモリフットプリント、レイテンシを節約するための有望なアプローチである。
本稿では,フォワードパス,バックプロパゲーション,勾配降下を含む完全関数型整数学習パイプラインを提案する。
提案手法は, 視覚変換器, オブジェクト検出, セマンティックセグメンテーションなど, 多様なタスクに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-18T22:36:57Z) - Look-ups are not (yet) all you need for deep learning inference [0.0]
行列乗算に対する高速な近似は、ニューラルネットワーク推論のコストを劇的に削減する可能性がある。
学習データから高速なハッシュ関数を組み込むことにより,コストのかかる行列乗法をテーブル・ルックアップに置き換えるための近似行列乗法に関する最近の研究が進められている。
本研究は,本研究の深層学習推論設定を対象とする,従来の研究の改善を提案する。
論文 参考訳(メタデータ) (2022-07-12T19:46:23Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Multi Layer Neural Networks as Replacement for Pooling Operations [13.481518628796692]
一方のパーセプトロンは,モデルの複雑さを増大させることなく,プール操作として有効に利用できることを示す。
テンソル畳み込みに対する我々のアプローチとストライドをプール操作として比較し、我々のアプローチが有効であり、複雑さを減少させることを示す。
論文 参考訳(メタデータ) (2020-06-12T07:08:38Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z) - Taylorized Training: Towards Better Approximation of Neural Network
Training at Finite Width [116.69845849754186]
Taylorized Trainingは、ニューラルネットワークの$k$-orderTaylor拡張をトレーニングする。
我々は、Taylorized Trainingが完全なニューラルネットワークトレーニングに同意していることを示します。
本実験は, 広帯域ニューラルネットワークにおいて, 近似誤差$k$-階Taylorized Modelが指数関数的に$k$以上減衰することを示す理論的結果と相補する。
論文 参考訳(メタデータ) (2020-02-10T18:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。