Fugu-MT 論文翻訳(概要): Reliable and Energy Efficient MLC STT-RAM Buffer for CNN Accelerators

論文の概要: Reliable and Energy Efficient MLC STT-RAM Buffer for CNN Accelerators

arxiv url: http://arxiv.org/abs/2001.08806v1
Date: Tue, 14 Jan 2020 18:14:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 13:37:53.837674
Title: Reliable and Energy Efficient MLC STT-RAM Buffer for CNN Accelerators
Title（参考訳）: CNN加速器用MLC STT-RAMバッファの信頼性とエネルギー効率
Authors: Masoomeh Jasemi, Shaahin Hessabi, Nader Bagherzadeh
Abstract要約: 本稿では,データブロックの形成をベースラインよりもソフトエラーを許容できるような,軽量な手法を提案する。 CNN重みは、各畳み込み層の後、-1から1の間で正規化され、これは半精度浮動小数点表現に1ビットも使われない。
参考スコア（独自算出の注目度）: 4.801975818473341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a lightweight scheme where the formation of a data block is changed in such a way that it can tolerate soft errors significantly better than the baseline. The key insight behind our work is that CNN weights are normalized between -1 and 1 after each convolutional layer, and this leaves one bit unused in half-precision floating-point representation. By taking advantage of the unused bit, we create a backup for the most significant bit to protect it against the soft errors. Also, considering the fact that in MLC STT-RAMs the cost of memory operations (read and write), and reliability of a cell are content-dependent (some patterns take larger current and longer time, while they are more susceptible to soft error), we rearrange the data block to minimize the number of costly bit patterns. Combining these two techniques provides the same level of accuracy compared to an error-free baseline while improving the read and write energy by 9% and 6%, respectively.
Abstract（参考訳）: 本稿では,ベースラインよりもソフトエラーを許容できるように,データブロックの形成を変更する軽量なスキームを提案する。私たちの研究の背景にある重要な洞察は、cnnの重みは各畳み込み層の後に-1から1の間で正規化され、半精度浮動小数点表現では1ビットが使われないということです。未使用のビットを活用することで、ソフトエラーから保護するために、最も重要なビットのバックアップを作成します。また、MLC STT-RAMでは、メモリ操作のコスト(読み書き)とセルの信頼性がコンテントに依存している(一部のパターンは、より大きな電流と長い時間を要するが、ソフトエラーの影響を受けやすい)という事実を考慮して、データブロックを再構成し、コストのかかるビットパターンの数を最小限に抑える。これら2つのテクニックを組み合わせることで、エラーのないベースラインと同等の精度が得られ、読み出しエネルギーは9%、書き込みエネルギーは6%向上する。

関連論文リスト

BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers [16.72390519245507]
(Bl)ock(a)nd(S)parse(T)ransformers)(BLaST) Bl)ock (a)nd (S)parse (T)ransformers (BLaST)を紹介する。 BLaSTは、無視できる精度の損失を伴うスパース重量において最大95%の間隔を達成できる。
論文参考訳（メタデータ） (2025-07-03T18:53:54Z)
MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。 HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文参考訳（メタデータ） (2024-12-10T22:44:54Z)
STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。 STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文参考訳（メタデータ） (2024-05-29T22:59:11Z)
Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文参考訳（メタデータ） (2024-05-24T13:12:14Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Zero-Space Cost Fault Tolerance for Transformer-based Language Models on ReRAM [27.354689865791638]
Resistive Random Access Memory (ReRAM)は、ディープニューラルネットワーク(DNN)のための有望なプラットフォームとして登場した。フォールト欠陥などのハードウェア障害は、モデル推論中に重大な予測エラーを引き起こす可能性がある。空間コストをゼロにするフォールトプロテクション機構を提案する。
論文参考訳（メタデータ） (2024-01-22T02:50:38Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Rediscovering Hashed Random Projections for Efficient Quantization of Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文参考訳（メタデータ） (2023-03-13T10:53:00Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。 SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文参考訳（メタデータ） (2021-01-02T12:09:49Z)
FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文参考訳（メタデータ） (2020-10-19T08:11:48Z)
Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文参考訳（メタデータ） (2020-09-04T20:17:42Z)
TinyTL: Reduce Activations, Not Trainable Parameters for Efficient On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文参考訳（メタデータ） (2020-07-22T18:39:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。