論文の概要: Zero-Space Cost Fault Tolerance for Transformer-based Language Models on
ReRAM
- arxiv url: http://arxiv.org/abs/2401.11664v1
- Date: Mon, 22 Jan 2024 02:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:22:21.019666
- Title: Zero-Space Cost Fault Tolerance for Transformer-based Language Models on
ReRAM
- Title(参考訳): ReRAMを用いたトランスフォーマーベース言語モデルにおけるゼロスペースコストフォールトトレランス
- Authors: Bingbing Li, Geng Yuan, Zigeng Wang, Shaoyi Huang, Hongwu Peng, Payman
Behnam, Wujie Wen, Hang Liu and Caiwen Ding
- Abstract要約: Resistive Random Access Memory (ReRAM)は、ディープニューラルネットワーク(DNN)のための有望なプラットフォームとして登場した。
フォールト欠陥などのハードウェア障害は、モデル推論中に重大な予測エラーを引き起こす可能性がある。
空間コストをゼロにするフォールトプロテクション機構を提案する。
- 参考スコア(独自算出の注目度): 27.354689865791638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resistive Random Access Memory (ReRAM) has emerged as a promising platform
for deep neural networks (DNNs) due to its support for parallel in-situ
matrix-vector multiplication. However, hardware failures, such as
stuck-at-fault defects, can result in significant prediction errors during
model inference. While additional crossbars can be used to address these
failures, they come with storage overhead and are not efficient in terms of
space, energy, and cost. In this paper, we propose a fault protection mechanism
that incurs zero space cost. Our approach includes: 1) differentiable structure
pruning of rows and columns to reduce model redundancy, 2) weight duplication
and voting for robust output, and 3) embedding duplicated most significant bits
(MSBs) into the model weight. We evaluate our method on nine tasks of the GLUE
benchmark with the BERT model, and experimental results prove its
effectiveness.
- Abstract(参考訳): reram(re resistive random access memory)は、dnn(deep neural network)の有望なプラットフォームとして登場した。
しかし、フォールト欠陥のようなハードウェアの故障は、モデル推論中に重大な予測エラーを引き起こす可能性がある。
これらの障害に対処するために追加のクロスバーを使用することができるが、ストレージオーバーヘッドがあり、空間、エネルギー、コストの点で効率が良くない。
本稿では,ゼロスペースコストを発生させる障害保護機構を提案する。
私たちのアプローチには
1)モデルの冗長性を低減するために、行と列の識別可能な構造プルーニング
2)頑健な生産のための重量重複と投票
3) 重複した最重要なビット(MSB)をモデル重みに埋め込む。
提案手法をBERTモデルを用いてGLUEベンチマークの9つのタスクで評価し,その有効性を実験的に検証した。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - ALBERTA: ALgorithm-Based Error Resilience in Transformer Architectures [5.502117675161604]
ビジョントランスフォーマーは、信頼性の高い安全クリティカルなアプリケーションにますますデプロイされている。
過渡的ハードウェアエラーのような潜在的なエラーにもかかわらず、実行の正確性を保証することが不可欠である。
アルゴリズムベースのレジリエンスフレームワークであるALBERTAを提案する。
論文 参考訳(メタデータ) (2023-10-05T18:55:30Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - GBSVM: Granular-ball Support Vector Machine [46.60182022640765]
GBSVMは、単一データポイントではなく、グラニュラーボールの粗粒度を入力として使用する分類器を構築するための重要な試みである。
本稿では,既存のGBSVMの原モデルの誤りを修正し,その二重モデルを導出する。
UCIベンチマークデータセットの実験結果は、GBSVMが堅牢性と効率性に優れていることを示している。
論文 参考訳(メタデータ) (2022-10-06T09:11:44Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Discriminative-Generative Dual Memory Video Anomaly Detection [81.09977516403411]
近年,ビデオ異常検出(VAD)には,トレーニングプロセス中に通常のデータに代えて,いくつかの異常を使おうと試みている。
本稿では,いくつかの異常を生かしてデータの不均衡を解決するために,識別生成型デュアルメモリ(dream)異常検出モデルを提案する。
論文 参考訳(メタデータ) (2021-04-29T15:49:01Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - Wide Boosting [0.0]
本稿では,人工ニューラルネットワークによるグラディエントブースティングの簡易な調整について述べる。
We called our method Wide Boosting (WB) and show that WB outforms GB on mult-dimesional output task。
論文 参考訳(メタデータ) (2020-07-20T02:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。