論文の概要: On Exact Bit-level Reversible Transformers Without Changing Architectures
- arxiv url: http://arxiv.org/abs/2407.09093v2
- Date: Sat, 5 Oct 2024 11:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 22:06:29.176949
- Title: On Exact Bit-level Reversible Transformers Without Changing Architectures
- Title(参考訳): アーキテクチャ変更のないビットレベル可逆変換器について
- Authors: Guoqiang Zhang, J. P. Lewis, W. B. Kleijn,
- Abstract要約: トレーニングプロセスにおけるメモリ消費を減らすために、可逆的なディープニューラルネットワーク(DNN)が提案されている。
提案するBDIA-transformerはビットレベルのリバーシブルトランスであり,標準アーキテクチャを変更せずに推論を行う。
- 参考スコア(独自算出の注目度): 4.282029766809805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various reversible deep neural networks (DNN) models have been proposed to reduce memory consumption in the training process. However, almost all existing reversible DNNs either require special non-standard architectures or are constructed by modifying existing DNN architectures considerably to enable reversibility. In this work we present the BDIA-transformer, which is an exact bit-level reversible transformer that uses an unchanged standard architecture for inference. The basic idea is to first treat each transformer block as the Euler integration approximation for solving an ordinary differential equation (ODE) and then incorporate the technique of bidirectional integration approximation (BDIA) into the neural architecture, together with activation quantization to make it exactly bit-level reversible. In the training process, we let a hyper-parameter $\gamma$ in BDIA-transformer randomly take one of the two values $\{0.5, -0.5\}$ per training sample per transformer block for averaging every two consecutive integration approximations. As a result, BDIA-transformer can be viewed as training an ensemble of ODE solvers parameterized by a set of binary random variables, which regularizes the model and results in improved validation accuracy. Lightweight side information per transformer block is required to be stored in the forward process to account for binary quantization loss to enable exact bit-level reversibility. In the inference procedure, the expectation $\mathbb{E}(\gamma)=0$ is taken to make the resulting architectures of BDIA-transformer identical to transformers up to activation quantization. Our experiments in both image classification and language translation show that BDIA-transformers outperform their conventional counterparts significantly in terms of validation performance while also requiring considerably less training memory.
- Abstract(参考訳): トレーニングプロセスにおけるメモリ消費を低減するために、様々な可逆的ディープニューラルネットワーク(DNN)モデルが提案されている。
しかし、ほとんどの既存の可逆DNNは特別な非標準アーキテクチャを必要とするか、あるいは可逆性を実現するために既存のDNNアーキテクチャをかなり変更して構築されている。
本稿では,BDIA変換器について述べる。BDIA変換器はビットレベルのリバーシブル変換器であり,標準アーキテクチャを変更せずに推論を行う。
基本的な考え方は、まず各変圧器ブロックを通常の微分方程式(ODE)を解くためのオイラー積分近似として扱い、次にバイ方向性積分近似(BDIA)の技術を神経アーキテクチャに組み込み、アクティベーション量子化と共にビットレベルを正確に可逆化する。
トレーニングプロセスでは、BDIA変換器のハイパーパラメータ$\gamma$を2つの連続積分近似の平均化のために、トレーニングサンプルあたり$\{0.5, -0.5\}$の2つの値のうちの1つをランダムに取る。
その結果、BDIA変換器は、バイナリランダム変数の集合によってパラメータ化されたODEソルバのアンサンブルを訓練し、モデルを正規化し、検証精度を向上させることができる。
変圧器ブロック当たりの軽量側情報は、正確にビットレベルの可逆性を実現するためにバイナリ量子化損失を考慮するためにフォワードプロセスに格納する必要がある。
推論手順では、期待$\mathbb{E}(\gamma)=0$ は変換器と同一のBDIA変換器のアーキテクチャを活性化量子化へと導く。
画像分類と言語翻訳の両方における実験により、BDIA変換器は、トレーニングメモリをかなり少なくしながら、検証性能において従来の変換器よりも大幅に優れていたことがわかった。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Bidirectional Consistency Models [1.486435467709869]
拡散モデル(DM)は、ランダムなベクトルを反復的に分解することで高品質なサンプルを生成する。
DMは確率フロー常微分方程式(PF ODE)に沿って後方に移動することによって入力画像から雑音への逆変換を行うことができる
論文 参考訳(メタデータ) (2024-03-26T18:40:36Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。