論文の概要: Towards 3D Acceleration for low-power Mixture-of-Experts and Multi-Head Attention Spiking Transformers
- arxiv url: http://arxiv.org/abs/2412.05540v1
- Date: Sat, 07 Dec 2024 05:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:32.172783
- Title: Towards 3D Acceleration for low-power Mixture-of-Experts and Multi-Head Attention Spiking Transformers
- Title(参考訳): 低消費電力混合型マルチヘッドアテンションスパイク変圧器の3次元高速化に向けて
- Authors: Boxun Xu, Junyoung Hwang, Pruek Vanna-iampikul, Yuxuan Yin, Sung Kyu Lim, Peng Li,
- Abstract要約: Spiking Neural Networks(SNN)は、エネルギー効率のよいディープラーニングを解き放つ上で重要な、脳にインスパイアされたイベント駆動のメカニズムを提供する。
本稿では,Mixture-of-ExpertsとMulti-Head Attention Spiking Transformerの最初の3Dハードウェアアーキテクチャと設計手法を紹介する。
- 参考スコア(独自算出の注目度): 5.1210823165448
- License:
- Abstract: Spiking Neural Networks(SNNs) provide a brain-inspired and event-driven mechanism that is believed to be critical to unlock energy-efficient deep learning. The mixture-of-experts approach mirrors the parallel distributed processing of nervous systems, introducing conditional computation policies and expanding model capacity without scaling up the number of computational operations. Additionally, spiking mixture-of-experts self-attention mechanisms enhance representation capacity, effectively capturing diverse patterns of entities and dependencies between visual or linguistic tokens. However, there is currently a lack of hardware support for highly parallel distributed processing needed by spiking transformers, which embody a brain-inspired computation. This paper introduces the first 3D hardware architecture and design methodology for Mixture-of-Experts and Multi-Head Attention spiking transformers. By leveraging 3D integration with memory-on-logic and logic-on-logic stacking, we explore such brain-inspired accelerators with spatially stackable circuitry, demonstrating significant optimization of energy efficiency and latency compared to conventional 2D CMOS integration.
- Abstract(参考訳): Spiking Neural Networks(SNN)は、エネルギー効率のよいディープラーニングを解き放つ上で重要な、ブレインインスパイアされたイベント駆動のメカニズムを提供する。
実験の混合アプローチは神経系の並列分散処理を反映し、条件付き計算ポリシーを導入し、計算処理数をスケールアップすることなくモデル容量を拡大する。
さらに、練習用ミキシング・オブ・エグゼクティブ・セルフアテンション機構は表現能力を高め、視覚的トークンや言語的トークン間の依存関係やさまざまな実体のパターンを効果的にキャプチャする。
しかし、現在、脳にインスパイアされた計算を具現化したトランスフォーマーをスパイクするために必要な、並列性の高い分散処理のためのハードウェアサポートが欠如している。
本稿では,Mixture-of-ExpertsとMulti-Head Attention Spiking Transformerの最初の3Dハードウェアアーキテクチャと設計手法を紹介する。
メモリ・オン・ロジカル・ロジック・オン・ロジカル・スタックリングと3D統合を活用することで、空間的に積み重ね可能な回路を持つ脳にインスパイアされた加速器を探索し、従来の2D CMOS統合と比較してエネルギー効率と遅延の大幅な最適化を実証する。
関連論文リスト
- Spiking Transformer Hardware Accelerators in 3D Integration [5.426379844893919]
スパイキングニューラルネットワーク(SNN)は計算の強力なモデルであり、リソース制約のあるエッジデバイスやニューロモルフィックハードウェアに適している。
近年出現したスパイク変圧器は、スパイク動作のバイナリ特性を生かして、性能と効率性が期待できる。
論文 参考訳(メタデータ) (2024-11-11T22:08:11Z) - Topology Optimization of Random Memristors for Input-Aware Dynamic SNN [44.38472635536787]
入力対応動的旋回型スパイクニューラルネットワーク(PRIME)のプルーニング最適化について紹介する。
信号表現の面では、PRIMEは脳固有のスパイキング機構をエミュレートするために、漏れやすい統合と発火のニューロンを使用する。
計算深度の動的調整にインスパイアされた再構成性のために、PRIMEは入力対応の動的早期停止ポリシーを採用している。
論文 参考訳(メタデータ) (2024-07-26T09:35:02Z) - Learning local equivariant representations for quantum operators [7.747597014044332]
本稿では,複数の量子演算子を予測するための新しいディープラーニングモデルSLEMを提案する。
SLEMは、計算効率を劇的に改善しながら最先端の精度を達成する。
SLEMの能力は多種多様な2次元および3次元材料にまたがって実証し,限られた訓練データでも高い精度を達成できることを示した。
論文 参考訳(メタデータ) (2024-07-08T15:55:12Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。
nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
論文 参考訳(メタデータ) (2024-03-16T22:01:55Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Bottom-up and top-down approaches for the design of neuromorphic
processing systems: Tradeoffs and synergies between natural and artificial
intelligence [3.874729481138221]
ムーアの法則は指数計算能力の期待を加速させており、システム全体の性能を改善するための新たな方法を求める最終段階に近づいている。
これらの方法の1つは、生物学的ニューラルネットワークシステムの柔軟性と計算効率を達成することを目的とした、脳にインスパイアされた代替コンピューティングアーキテクチャの探索である。
我々は、このパラダイムシフトが実現される際の粒度の異なるレベルについて、その分野の包括的概要を提供する。
論文 参考訳(メタデータ) (2021-06-02T16:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。