論文の概要: Explicit Sign-Magnitude Encoders Enable Power-Efficient Multipliers
- arxiv url: http://arxiv.org/abs/2507.18179v1
- Date: Thu, 24 Jul 2025 08:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.234036
- Title: Explicit Sign-Magnitude Encoders Enable Power-Efficient Multipliers
- Title(参考訳): 電力効率の良い乗算器を実現する明示的符号量エンコーダ
- Authors: Felix Arnold, Maxence Bouvier, Ryan Amaudruz, Renzo Andri, Lukas Cavigelli,
- Abstract要約: 固定点乗算器ユニットの電力効率を最大化するために,それらをサブコンポーネントに分解する手法を提案する。
我々の手法は、AIワークロードでよく見られるように、ゼロを中心とした入力値の大幅な省電力化につながる。
- 参考スコア(独自算出の注目度): 1.5845117761091052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a method to maximize power-efficiency of fixed point multiplier units by decomposing them into sub-components. First, an encoder block converts the operands from a two's complement to a sign magnitude representation, followed by a multiplier module which performs the compute operation and outputs the resulting value in the original format. This allows to leverage the power-efficiency of the Sign Magnitude encoding for the multiplication. To ensure the computing format is not altered, those two components are synthesized and optimized separately. Our method leads to significant power savings for input values centered around zero, as commonly encountered in AI workloads. Under a realistic input stream with values normally distributed with a standard deviation of 3.0, post-synthesis simulations of the 4-bit multiplier design show up to 12.9% lower switching activity compared to synthesis without decomposition. Those gains are achieved while ensuring compliance into any production-ready system as the overall circuit stays logic-equivalent. With the compliance lifted and a slightly smaller input range of -7 to +7, switching activity reductions can reach up to 33%. Additionally, we demonstrate that synthesis optimization methods based on switching-activity-driven design space exploration can yield a further 5-10% improvement in power-efficiency compared to a power agnostic approach.
- Abstract(参考訳): 本研究は、固定点乗算器ユニットの電力効率を最大化するために、それらをサブコンポーネントに分解する手法を提案する。
まず、エンコーダブロックがオペランドを2の補数から符号等級表現に変換し、次いで演算演算を行い、元のフォーマットで結果の値を出力する乗算器モジュールを出力する。
これにより、乗算のためにSign Magnitudeエンコーディングの電力効率を利用することができる。
計算形式が変更されないように、これらの2つのコンポーネントは別々に合成され、最適化される。
我々の手法は、AIワークロードでよく見られるように、ゼロを中心とした入力値の大幅な省電力化につながる。
通常3.0の標準偏差で分布する値を持つ現実的な入力ストリームの下では、4ビット乗算器の設計の合成後のシミュレーションは、分解せずに合成するよりも最大で12.9%低いスイッチング活性を示す。
これらの利得は、全体的な回路が論理等価であるため、プロダクション対応システムへのコンプライアンスを確保しながら達成される。
コンプライアンスが引き上げられ、入力範囲が7から+7にわずかに小さいため、スイッチングアクティビティの削減は最大33%に達する。
さらに,スイッチングアクティビティ駆動設計空間探索に基づく合成最適化手法により,電力非依存手法と比較して,電力効率が5~10%向上することが実証された。
関連論文リスト
- Performance Characterization of a Multi-Module Quantum Processor with Static Inter-Chip Couplers [63.42120407991982]
フリップチップボンディングのような3次元統合技術は、大規模超伝導量子プロセッサを実現するための鍵となる前提条件である。
1つのキャリアチップと4つのキュービットモジュールからなるマルチチップモジュールの設計を提案する。
2つのキュービットを測定し,平均3レベル状態割当誤差を200 nsで9倍10~3ドルとした。
ランダム化ベンチマークから抽出した7×10〜3$の誤差で100 nsの制御Z2量子ゲートを実演する。
論文 参考訳(メタデータ) (2025-03-16T18:32:44Z) - Synthesis of Binary-Input Multi-Valued Output Optical Cascades for Reversible and Quantum Technologies [0.0]
本稿では,Sasao と Saraivanov の群論に基づく手法から分解を拡張し,2値入力型多値出力量子カスケードを設計する。
本手法は,3,5,7値の出力に対して提案するが,一般には奇素値の出力に対して用いることができる。
論文 参考訳(メタデータ) (2024-10-24T02:19:59Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models [0.562479170374811]
本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。
OPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。
その結果、エネルギー効率を 1.62.2x に改善し、面積を 2.43.1x に減らし、精度を損なうことができる。
論文 参考訳(メタデータ) (2024-09-06T02:33:20Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - EcoFormer: Energy-Saving Attention with Linear Complexity [40.002608785252164]
Transformerはシーケンシャルデータをモデル化する変換フレームワークである。
本研究では,高次元ソフトマックスアテンションにカスタマイズした新しいバイナライゼーションパラダイムを提案する。
EcoFormerは、標準の注意を払って、一貫して同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-09-19T13:28:32Z) - WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。
ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-26T23:18:38Z) - Spin Wave Normalization Towards all Magnonic Circuits [0.0]
スピンウェーブ(SW)技術利用の鍵となる要素は、SW基本計算ブロックを効率よくカスケードする能力である。
本稿では、指向性カプラによるSW振幅正規化を実現する、新しい変換自由SWゲートカスケード方式を提案する。
論文 参考訳(メタデータ) (2020-06-18T11:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。