論文の概要: Reliable and Energy Efficient MLC STT-RAM Buffer for CNN Accelerators
- arxiv url: http://arxiv.org/abs/2001.08806v1
- Date: Tue, 14 Jan 2020 18:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 13:37:53.837674
- Title: Reliable and Energy Efficient MLC STT-RAM Buffer for CNN Accelerators
- Title(参考訳): CNN加速器用MLC STT-RAMバッファの信頼性とエネルギー効率
- Authors: Masoomeh Jasemi, Shaahin Hessabi, Nader Bagherzadeh
- Abstract要約: 本稿では,データブロックの形成をベースラインよりもソフトエラーを許容できるような,軽量な手法を提案する。
CNN重みは、各畳み込み層の後、-1から1の間で正規化され、これは半精度浮動小数点表現に1ビットも使われない。
- 参考スコア(独自算出の注目度): 4.801975818473341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a lightweight scheme where the formation of a data block is
changed in such a way that it can tolerate soft errors significantly better
than the baseline. The key insight behind our work is that CNN weights are
normalized between -1 and 1 after each convolutional layer, and this leaves one
bit unused in half-precision floating-point representation. By taking advantage
of the unused bit, we create a backup for the most significant bit to protect
it against the soft errors. Also, considering the fact that in MLC STT-RAMs the
cost of memory operations (read and write), and reliability of a cell are
content-dependent (some patterns take larger current and longer time, while
they are more susceptible to soft error), we rearrange the data block to
minimize the number of costly bit patterns. Combining these two techniques
provides the same level of accuracy compared to an error-free baseline while
improving the read and write energy by 9% and 6%, respectively.
- Abstract(参考訳): 本稿では,ベースラインよりもソフトエラーを許容できるように,データブロックの形成を変更する軽量なスキームを提案する。
私たちの研究の背景にある重要な洞察は、cnnの重みは各畳み込み層の後に-1から1の間で正規化され、半精度浮動小数点表現では1ビットが使われないということです。
未使用のビットを活用することで、ソフトエラーから保護するために、最も重要なビットのバックアップを作成します。
また、MLC STT-RAMでは、メモリ操作のコスト(読み書き)とセルの信頼性がコンテントに依存している(一部のパターンは、より大きな電流と長い時間を要するが、ソフトエラーの影響を受けやすい)という事実を考慮して、データブロックを再構成し、コストのかかるビットパターンの数を最小限に抑える。
これら2つのテクニックを組み合わせることで、エラーのないベースラインと同等の精度が得られ、読み出しエネルギーは9%、書き込みエネルギーは6%向上する。
関連論文リスト
- STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。
実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文 参考訳(メタデータ) (2024-05-24T13:12:14Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Zero-Space Cost Fault Tolerance for Transformer-based Language Models on
ReRAM [27.354689865791638]
Resistive Random Access Memory (ReRAM)は、ディープニューラルネットワーク(DNN)のための有望なプラットフォームとして登場した。
フォールト欠陥などのハードウェア障害は、モデル推論中に重大な予測エラーを引き起こす可能性がある。
空間コストをゼロにするフォールトプロテクション機構を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:50:38Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。