論文の概要: Silicon Photonic 2.5D Interposer Networks for Overcoming Communication
Bottlenecks in Scale-out Machine Learning Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2403.04189v1
- Date: Thu, 7 Mar 2024 03:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:12:09.884420
- Title: Silicon Photonic 2.5D Interposer Networks for Overcoming Communication
Bottlenecks in Scale-out Machine Learning Hardware Accelerators
- Title(参考訳): 大規模機械学習ハードウェアアクセラレータにおける通信基盤克服のためのシリコンフォトニック2.5Dインターポーザネットワーク
- Authors: Febin Sunny, Ebadollah Taheri, Mahdi Nikdast, Sudeep Pasricha
- Abstract要約: 現代の機械学習(ML)アプリケーションはますます複雑になり、モノリシックな(シングルチップ)アクセラレータアーキテクチャは、そのエネルギー効率とスループットの要求に追いついていない。
本稿では,光通信と計算を2.5Dプラットフォームで活用し,エネルギー効率と高スループットの2.5D MLアクセラレータアーキテクチャを実現する方法について概説する。
- 参考スコア(独自算出の注目度): 5.482420806459269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern machine learning (ML) applications are becoming increasingly complex
and monolithic (single chip) accelerator architectures cannot keep up with
their energy efficiency and throughput demands. Even though modern digital
electronic accelerators are gradually adopting 2.5D architectures with multiple
smaller chiplets to improve scalability, they face fundamental limitations due
to a reliance on slow metallic interconnects. This paper outlines how optical
communication and computation can be leveraged in 2.5D platforms to realize
energy-efficient and high throughput 2.5D ML accelerator architectures.
- Abstract(参考訳): 現代の機械学習(ML)アプリケーションはますます複雑になり、モノリシックな(シングルチップ)アクセラレータアーキテクチャは、そのエネルギー効率とスループットの要求に追いついていない。
現代のデジタル電子加速器は、拡張性を改善するために複数の小型チップレットを備えた2.5dアーキテクチャを徐々に採用しているが、低速な金属配線に依存するため、基本的な制限に直面している。
本稿では,光通信と計算を2.5Dプラットフォームで活用し,エネルギー効率と高スループットの2.5D MLアクセラレータアーキテクチャを実現する方法について概説する。
関連論文リスト
- Dynamic Spectrum Access for Ambient Backscatter Communication-assisted D2D Systems with Quantum Reinforcement Learning [68.63990729719369]
無線スペクトルは乏しくなり、D2D通信のスペクトル効率は低い。
本稿では, 周囲RF信号の後方散乱を可能にするために, 環境後方散乱通信技術をD2Dデバイスに統合することを目的とする。
我々は、より少ないトレーニングパラメータでより高速な収束率を達成することができる新しい量子強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-23T15:36:43Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Optical training of large-scale Transformers and deep neural networks with direct feedback alignment [48.90869997343841]
我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。
光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を最大1500テラOpsで行う。
我々は、ハイブリッド光アプローチの計算スケーリングについて検討し、超深度・広帯域ニューラルネットワークの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-09-01T12:48:47Z) - ARTEMIS: A Mixed Analog-Stochastic In-DRAM Accelerator for Transformer Neural Networks [2.9699290794642366]
ARTEMISは、トランスフォーマーモデルのための混合アナログ確率型インDRAMアクセラレータである。
解析の結果、ARTEMISはGPU、TPU、CPU、最先端のPIMトランスハードウェアアクセラレータと比較して、少なくとも3.0倍のスピードアップ、1.8倍のエネルギー、そして1.9倍のエネルギー効率を示した。
論文 参考訳(メタデータ) (2024-07-17T15:08:14Z) - Accelerating Neural Networks for Large Language Models and Graph
Processing with Silicon Photonics [4.471962177124311]
大規模言語モデル(LLM)とグラフ処理は、自然言語処理(NLP)、コンピュータビジョン、グラフ構造化データアプリケーションのための変換技術として登場した。
しかし、これらのモデルの複雑な構造は、従来の電子プラットフォーム上での加速に挑戦する。
本稿では,LLMやグラフニューラルネットワークでグラフデータ処理に使用されるトランスフォーマーニューラルネットワークを高速化する,シリコンフォトニクスに基づくハードウェアアクセラレータについて述べる。
論文 参考訳(メタデータ) (2024-01-12T20:32:38Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - Machine Learning Accelerators in 2.5D Chiplet Platforms with Silicon
Photonics [5.190207094732673]
GoogleのTPUやAppleのNeural Engineといったドメイン固有機械学習(ML)アクセラレータが、エネルギー効率の高いML処理のためにCPUとGPUを支配している。
我々は、光計算と通信を2.5Dチップレットプラットフォームに統合し、持続可能なスケーラブルなMLハードウェアアクセラレーターの全く新しいクラスを駆動するビジョンを提示する。
論文 参考訳(メタデータ) (2023-01-28T17:06:53Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Resistive Neural Hardware Accelerators [0.46198289193451136]
ReRAMベースのインメモリコンピューティングは、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
ReRAMベースのインメモリコンピューティングへの移行は、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
本稿では,最先端のReRAMベースディープニューラルネットワーク(DNN)多コアアクセラレータについて概説する。
論文 参考訳(メタデータ) (2021-09-08T21:11:48Z) - Interleaving: Modular architectures for fault-tolerant photonic quantum
computing [50.591267188664666]
フォトニック核融合型量子コンピューティング(FBQC)は低損失フォトニック遅延を用いる。
FBQCのモジュールアーキテクチャとして,これらのコンポーネントを結合して「インターリービングモジュール」を形成するアーキテクチャを提案する。
遅延の乗法的パワーを行使すると、各加群はヒルベルト空間に数千の物理量子ビットを加えることができる。
論文 参考訳(メタデータ) (2021-03-15T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。