論文の概要: OISMA: On-the-fly In-memory Stochastic Multiplication Architecture for Matrix-Multiplication Workloads
- arxiv url: http://arxiv.org/abs/2508.08822v1
- Date: Tue, 12 Aug 2025 10:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.387818
- Title: OISMA: On-the-fly In-memory Stochastic Multiplication Architecture for Matrix-Multiplication Workloads
- Title(参考訳): OISMA: マトリックスマルチレプリケーションワークロードのためのオンザフライインメモリ確率型乗算アーキテクチャ
- Authors: Shady Agwa, Yihan Pan, Georgios Papandroulidakis, Themis Prodromakis,
- Abstract要約: OISMAは、準確率計算領域(Bent-Pyramidシステム)の計算単純性を利用する、新しいインメモリコンピューティングアーキテクチャである。
OISMAは通常のメモリ読み取り操作を、無視できるコストでインサイト乗算操作に変換する。
精度は平均相対的なフロベニウス誤差を 9.42% (4x4) から 1.81% (512x512) に減少させる。
- 参考スコア(独自算出の注目度): 0.2796197251957244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial Intelligence models are currently driven by a significant up-scaling of their complexity, with massive matrix multiplication workloads representing the major computational bottleneck. In-memory computing architectures are proposed to avoid the Von Neumann bottleneck. However, both digital/binary-based and analogue in-memory computing architectures suffer from various limitations, which significantly degrade the performance and energy efficiency gains. This work proposes OISMA, a novel in-memory computing architecture that utilizes the computational simplicity of a quasi-stochastic computing domain (Bent-Pyramid system), while keeping the same efficiency, scalability, and productivity of digital memories. OISMA converts normal memory read operations into in-situ stochastic multiplication operations with a negligible cost. An accumulation periphery then accumulates the output multiplication bitstreams, achieving the matrix multiplication functionality. Extensive matrix multiplication benchmarking was conducted to analyze the accuracy of the Bent-Pyramid system, using matrix dimensions ranging from 4x4 to 512x512. The accuracy results show a significant decrease in the average relative Frobenius error, from 9.42% (for 4x4) to 1.81% (for 512x512), compared to 64-bit double precision floating-point format. A 1T1R OISMA array of 4 KB capacity was implemented using a commercial 180nm technology node and in-house RRAM technology. At 50 MHz, OISMA achieves 0.891 TOPS/W and 3.98 GOPS/mm2 for energy and area efficiency, respectively, occupying an effective computing area of 0.804241 mm2. Scaling OISMA from 180nm to 22nm technology shows a significant improvement of two orders of magnitude in energy efficiency and one order of magnitude in area efficiency, compared to dense matrix multiplication in-memory computing architectures.
- Abstract(参考訳): 人工知能モデルは、現在、その複雑さの大きなアップスケーリングによって駆動されており、大規模な行列乗算処理は、主要な計算ボトルネックを表している。
インメモリコンピューティングアーキテクチャは、フォン・ノイマンのボトルネックを避けるために提案されている。
しかし、デジタル/バイナリベースおよびアナログインメモリコンピューティングアーキテクチャは、様々な制限に悩まされ、性能とエネルギー効率が著しく低下する。
本研究は, 準確率計算領域(ベント・ピラミド・システム)の計算単純性を利用して, ディジタルメモリの効率, スケーラビリティ, 生産性を維持しつつ, 新たなインメモリ・コンピューティングアーキテクチャであるOISMAを提案する。
OISMAは、通常のメモリ読み取り操作を、無視できるコストで、その場で確率的乗算操作に変換する。
蓄積周辺は出力乗算ビットストリームを蓄積し、行列乗算機能を達成する。
4x4から512x512の範囲の行列次元を用いて, ベント・ピラミド系の精度を解析するために, 行列乗算ベンチマークを行った。
精度は、64ビットの倍精度浮動小数点フォーマットに比べて9.42%(4x4)から1.81%(512x512)に低下した。
1T1R OISMAアレイは4KBの容量を持ち、商用の180nm技術ノードと社内RRAM技術を用いて実装された。
50MHzでは、エネルギー効率は0.891 TOPS/W、面積効率は3.98 GOPS/mm2となり、有効計算面積は0.804241 mm2である。
OISMAの180nmから22nmへのスケーリングは、高密度行列乗算インメモリコンピューティングアーキテクチャと比較して、エネルギー効率の2桁と面積効率の1桁の2桁の大幅な改善を示している。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。
そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文 参考訳(メタデータ) (2025-06-14T07:39:15Z) - The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。
本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文 参考訳(メタデータ) (2025-06-13T12:40:16Z) - BitNet b1.58 2B4T Technical Report [118.78752947128682]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。
4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-04-16T17:51:43Z) - Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs [8.17483100683993]
我々は,乗算器(MAC)のビット重み次元に着目した,行列乗算に関する新しいハードウェア視点を導入する。
タイミング,面積,消費電力を改善する4つの最適化手法を提案する。
本手法は, 1.27x, 1.28x, 1.56x, 1.44xの面積効率向上と1.04x, 1.56x, 1.49x, 1.20xのエネルギー効率向上を実現する。
論文 参考訳(メタデータ) (2025-03-08T21:21:23Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - IMAC: In-memory multi-bit Multiplication andACcumulation in 6T SRAM
Array [5.29958909018578]
インメモリコンピューティングは、メモリアレイに計算のいくつかの側面を埋め込むことを目的としている。
6Tアレイ内で並列ドット生成を行うことができる新しいインメモリ乗算法を提案する。
提案システムはエネルギー消費の6.24倍、遅延の9.42倍である。
論文 参考訳(メタデータ) (2020-03-27T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。