論文の概要: Machine Learning Accelerators in 2.5D Chiplet Platforms with Silicon
Photonics
- arxiv url: http://arxiv.org/abs/2301.12252v1
- Date: Sat, 28 Jan 2023 17:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:11:23.049324
- Title: Machine Learning Accelerators in 2.5D Chiplet Platforms with Silicon
Photonics
- Title(参考訳): シリコンフォトニクスを用いた2.5Dチップレットプラットフォームの機械学習加速器
- Authors: Febin Sunny, Ebadollah Taheri, Mahdi Nikdast, Sudeep Pasricha
- Abstract要約: GoogleのTPUやAppleのNeural Engineといったドメイン固有機械学習(ML)アクセラレータが、エネルギー効率の高いML処理のためにCPUとGPUを支配している。
我々は、光計算と通信を2.5Dチップレットプラットフォームに統合し、持続可能なスケーラブルなMLハードウェアアクセラレーターの全く新しいクラスを駆動するビジョンを提示する。
- 参考スコア(独自算出の注目度): 5.190207094732673
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Domain-specific machine learning (ML) accelerators such as Google's TPU and
Apple's Neural Engine now dominate CPUs and GPUs for energy-efficient ML
processing. However, the evolution of electronic accelerators is facing
fundamental limits due to the limited computation density of monolithic
processing chips and the reliance on slow metallic interconnects. In this
paper, we present a vision of how optical computation and communication can be
integrated into 2.5D chiplet platforms to drive an entirely new class of
sustainable and scalable ML hardware accelerators. We describe how cross-layer
design and fabrication of optical devices, circuits, and architectures, and
hardware/software codesign can help design efficient photonics-based 2.5D
chiplet platforms to accelerate emerging ML workloads.
- Abstract(参考訳): GoogleのTPUやAppleのNeural Engineといったドメイン固有機械学習(ML)アクセラレータが、エネルギー効率の高いML処理のためにCPUとGPUを支配している。
しかし、電子加速器の進化は、モノリシック処理チップの計算密度の制限と遅い金属配線に依存するため、根本的な限界に直面している。
本稿では,光計算と通信を2.5dチップレットプラットフォームに統合して,まったく新しいタイプの持続可能でスケーラブルなmlハードウェアアクセラレータを実現するためのビジョンを提案する。
我々は、光デバイス、回路、アーキテクチャ、ハードウェア/ソフトウェアコードデザインの層間設計と製造が、より効率的なフォトニクスベースの2.5Dチップレットプラットフォームの設計にどのように役立つかを説明する。
関連論文リスト
- Performance and Power: Systematic Evaluation of AI Workloads on Accelerators with CARAML [0.0]
CARAMLベンチマークスイートは、大規模言語モデルとコンピュータビジョンモデルのトレーニング中のパフォーマンスとエネルギー消費を評価するために使用される。
CarAMLは、MLワークロードのパフォーマンスとエネルギを評価するための、コンパクトで、自動化され、再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-19T12:43:18Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - Silicon Photonic 2.5D Interposer Networks for Overcoming Communication
Bottlenecks in Scale-out Machine Learning Hardware Accelerators [5.482420806459269]
現代の機械学習(ML)アプリケーションはますます複雑になり、モノリシックな(シングルチップ)アクセラレータアーキテクチャは、そのエネルギー効率とスループットの要求に追いついていない。
本稿では,光通信と計算を2.5Dプラットフォームで活用し,エネルギー効率と高スループットの2.5D MLアクセラレータアーキテクチャを実現する方法について概説する。
論文 参考訳(メタデータ) (2024-03-07T03:38:35Z) - Accelerating Neural Networks for Large Language Models and Graph
Processing with Silicon Photonics [4.471962177124311]
大規模言語モデル(LLM)とグラフ処理は、自然言語処理(NLP)、コンピュータビジョン、グラフ構造化データアプリケーションのための変換技術として登場した。
しかし、これらのモデルの複雑な構造は、従来の電子プラットフォーム上での加速に挑戦する。
本稿では,LLMやグラフニューラルネットワークでグラフデータ処理に使用されるトランスフォーマーニューラルネットワークを高速化する,シリコンフォトニクスに基づくハードウェアアクセラレータについて述べる。
論文 参考訳(メタデータ) (2024-01-12T20:32:38Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for
Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。
Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-21T18:07:14Z) - SeLoC-ML: Semantic Low-Code Engineering for Machine Learning
Applications in Industrial IoT [9.477629856092218]
本稿では,Semantic Low-Code Engineering for ML Applications (SeLoC-ML) というフレームワークを提案する。
SeLoC-MLは、非専門家が大規模なMLモデルやデバイスをモデル化し、発見し、再利用することを可能にする。
開発者は、レシピと呼ばれるセマンティックなアプリケーションテンプレートから、エンドユーザアプリケーションのプロトタイプを高速に作成できる。
論文 参考訳(メタデータ) (2022-07-18T13:06:21Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Interleaving: Modular architectures for fault-tolerant photonic quantum
computing [50.591267188664666]
フォトニック核融合型量子コンピューティング(FBQC)は低損失フォトニック遅延を用いる。
FBQCのモジュールアーキテクチャとして,これらのコンポーネントを結合して「インターリービングモジュール」を形成するアーキテクチャを提案する。
遅延の乗法的パワーを行使すると、各加群はヒルベルト空間に数千の物理量子ビットを加えることができる。
論文 参考訳(メタデータ) (2021-03-15T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。