論文の概要: Learning in Log-Domain: Subthreshold Analog AI Accelerator Based on Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2501.13181v1
- Date: Wed, 22 Jan 2025 19:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:31.319231
- Title: Learning in Log-Domain: Subthreshold Analog AI Accelerator Based on Stochastic Gradient Descent
- Title(参考訳): ログドメインにおける学習:確率的勾配Descentに基づくサブスレッショルドアナログAI加速器
- Authors: Momen K Tageldeen, Yacine Belgaid, Vivek Mohan, Zhou Wang, Emmanuel M Drakakis,
- Abstract要約: L2正規化(SGDr)を用いた勾配勾配勾配を用いたAI/MLトレーニングワークロードのための新しいアナログアクセラレータアーキテクチャを提案する。
提案した設計は,デジタル実装と比較してトランジスタ面積と消費電力の大幅な削減を実現している。
この研究は、チップ上でのトレーニング機能を備えたエネルギー効率の良いアナログAIハードウェアの道を開いた。
- 参考スコア(独自算出の注目度): 5.429033337081392
- License:
- Abstract: The rapid proliferation of AI models, coupled with growing demand for edge deployment, necessitates the development of AI hardware that is both high-performance and energy-efficient. In this paper, we propose a novel analog accelerator architecture designed for AI/ML training workloads using stochastic gradient descent with L2 regularization (SGDr). The architecture leverages log-domain circuits in subthreshold MOS and incorporates volatile memory. We establish a mathematical framework for solving SGDr in the continuous time domain and detail the mapping of SGDr learning equations to log-domain circuits. By operating in the analog domain and utilizing weak inversion, the proposed design achieves significant reductions in transistor area and power consumption compared to digital implementations. Experimental results demonstrate that the architecture closely approximates ideal behavior, with a mean square error below 0.87% and precision as low as 8 bits. Furthermore, the architecture supports a wide range of hyperparameters. This work paves the way for energy-efficient analog AI hardware with on-chip training capabilities.
- Abstract(参考訳): AIモデルの急速な普及とエッジデプロイメントの需要の増大は、高性能でエネルギー効率のよいAIハードウェアの開発を必要としている。
本稿では,L2正規化(SGDr)を用いた確率勾配勾配を用いたAI/ML訓練作業のための新しいアナログアクセラレータアーキテクチャを提案する。
このアーキテクチャはサブスレッショルドMOSのログドメイン回路を活用し、揮発性メモリを組み込む。
連続時間領域においてSGDrを解くための数学的枠組みを確立し、SGDr学習方程式をログドメイン回路にマッピングする方法について詳述する。
アナログ領域で動作し、弱い反転を利用することにより、提案設計はデジタル実装と比較してトランジスタ面積と消費電力を大幅に削減する。
実験結果から, 平均2乗誤差が0.87%以下で, 8ビット以下の精度で, 理想的挙動を近似することがわかった。
さらに、アーキテクチャは幅広いハイパーパラメータをサポートする。
この研究は、チップ上でのトレーニング機能を備えたエネルギー効率の良いアナログAIハードウェアの道を開いた。
関連論文リスト
- Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Towards Exact Gradient-based Training on Analog In-memory Computing [28.38387901763604]
アナログ加速器に関する推論は近年研究されているが、トレーニングの観点は過小評価されている。
近年の研究では、非理想デバイスでのモデルトレーニングに適用した場合、勾配降下(SGD)アルゴリズムの「ワークホース」が不正確に収束することが示されている。
本稿では,アナログデバイス上での勾配に基づくトレーニングの理論的基礎について述べる。
論文 参考訳(メタデータ) (2024-06-18T16:43:59Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - AnalogNAS: A Neural Network Design Framework for Accurate Inference with
Analog In-Memory Computing [7.596833322764203]
エッジでの推論は低レイテンシ、コンパクト、電力効率のモデルを必要とする。
アナログ/混合信号インメモリコンピューティングハードウェアアクセラレータは、フォン・ノイマンアーキテクチャのメモリ壁を簡単に超越することができる。
本稿では,アナログインメモリコンピューティング(IMC)推論アクセラレータをターゲットとした,DNN(Deep Neural Network)自動設計のためのフレームワークであるAnalogNASを提案する。
論文 参考訳(メタデータ) (2023-05-17T07:39:14Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。