論文の概要: Trilinear Compute-in-Memory Architecture for Energy-Efficient Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2604.07628v1
- Date: Wed, 08 Apr 2026 22:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.58181
- Title: Trilinear Compute-in-Memory Architecture for Energy-Efficient Transformer Acceleration
- Title(参考訳): エネルギー効率の良い変圧器高速化のためのトリリニア・コンピュート・イン・メモリアーキテクチャ
- Authors: Md Zesun Ahmed Mia, Jiahui Duan, Kai Ni, Abhronil Sengupta,
- Abstract要約: Transformerにおける自己注意は、従来のCompute-in-Memoryアクセラレーターを高価な不揮発性メモリ再プログラミングサイクルに強制する動的オペランドを生成する。
動的強誘電体再プログラミングを伴わないインメモリアテンション計算のために,バックゲート変調を用いたTrilinearCIMを提案する。
- 参考スコア(独自算出の注目度): 7.462501427797368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention in Transformers generates dynamic operands that force conventional Compute-in-Memory (CIM) accelerators into costly non-volatile memory (NVM) reprogramming cycles, degrading throughput and stressing device endurance. Existing solutions either reduce but retain NVM writes through matrix decomposition or sparsity, or move attention computation to digital CMOS at the expense of NVM density. We present TrilinearCIM, a Double-Gate FeFET (DG-FeFET)-based architecture that uses back-gate modulation to realize a three-operand multiply-accumulate primitive for in-memory attention computation without dynamic ferroelectric reprogramming. Evaluated on BERT-base (GLUE) and ViT-base (ImageNet and CIFAR), TrilinearCIM outperforms conventional CIM on seven of nine GLUE tasks while achieving up to 46.6\% energy reduction and 20.4\% latency improvement over conventional FeFET CIM at 37.3\% area overhead. To our knowledge, this is the first architecture to perform complete Transformer attention computation exclusively in NVM cores without runtime reprogramming.
- Abstract(参考訳): Transformersの自己アテンションは、従来のCompute-in-Memory(CIM)アクセラレーターをコストのかかる非揮発性メモリ(NVM)再プログラミングサイクルに強制する動的オペランドを生成する。
既存のソリューションは、行列分解やスパーシティを通じてNVMの書き込みを減少させるか、NVM密度を犠牲にして注意計算をデジタルCMOSに移行するかのいずれかである。
本稿では,DG-FeFET (Double-Gate FeFET) ベースのアーキテクチャであるTrilinearCIMを提案する。
BERT-base (GLUE) と ViT-base (ImageNet and CIFAR) で評価され、TrilinearCIMは従来の9つのGLUEタスクのうち7つのCIMを上回り、最大46.6 %のエネルギー削減と20.4 %の遅延改善を37.3 %のオーバーヘッドで達成した。
我々の知る限り、このアーキテクチャは、実行時再プログラミングなしで、NVMコアでのみTransformerアテンション計算を実行する最初のアーキテクチャです。
関連論文リスト
- Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - ARTEMIS: A Mixed Analog-Stochastic In-DRAM Accelerator for Transformer Neural Networks [2.9699290794642366]
ARTEMISは、トランスフォーマーモデルのための混合アナログ確率型インDRAMアクセラレータである。
解析の結果、ARTEMISはGPU、TPU、CPU、最先端のPIMトランスハードウェアアクセラレータと比較して、少なくとも3.0倍のスピードアップ、1.8倍のエネルギー、そして1.9倍のエネルギー効率を示した。
論文 参考訳(メタデータ) (2024-07-17T15:08:14Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。