論文の概要: A Hardware-Efficient Photonic Tensor Core: Accelerating Deep Neural Networks with Structured Compression
- arxiv url: http://arxiv.org/abs/2502.01670v1
- Date: Sat, 01 Feb 2025 17:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:52:19.823983
- Title: A Hardware-Efficient Photonic Tensor Core: Accelerating Deep Neural Networks with Structured Compression
- Title(参考訳): ハードウェア効率の良いフォトニックテンソルコア:構造化圧縮によるディープニューラルネットワークの高速化
- Authors: Shupeng Ning, Hanqing Zhu, Chenghao Feng, Jiaqi Gu, David Z. Pan, Ray T. Chen,
- Abstract要約: AIとディープニューラルネットワーク(DNN)は多くの分野に革命をもたらし、大規模なデータセットから複雑な特徴を抽出することで複雑なタスクを可能にした。
光コンピューティングは、並列性、高い計算速度、低消費電力という固有の利点のために、有望な代替手段を提供する。
構造圧縮型光ニューラルネットワーク(StrC-ONN)アーキテクチャのためのブロック循環型フォトニックテンソルコア(CirPTC)を提案する。
- 参考スコア(独自算出の注目度): 15.665630650382226
- License:
- Abstract: Recent advancements in artificial intelligence (AI) and deep neural networks (DNNs) have revolutionized numerous fields, enabling complex tasks by extracting intricate features from large datasets. However, the exponential growth in computational demands has outstripped the capabilities of traditional electrical hardware accelerators. Optical computing offers a promising alternative due to its inherent advantages of parallelism, high computational speed, and low power consumption. Yet, current photonic integrated circuits (PICs) designed for general matrix multiplication (GEMM) are constrained by large footprints, high costs of electro-optical (E-O) interfaces, and high control complexity, limiting their scalability. To overcome these challenges, we introduce a block-circulant photonic tensor core (CirPTC) for a structure-compressed optical neural network (StrC-ONN) architecture. By applying a structured compression strategy to weight matrices, StrC-ONN significantly reduces model parameters and hardware requirements while preserving the universal representability of networks and maintaining comparable expressivity. Additionally, we propose a hardware-aware training framework to compensate for on-chip nonidealities to improve model robustness and accuracy. We experimentally demonstrate image processing and classification tasks, achieving up to a 74.91% reduction in trainable parameters while maintaining competitive accuracies. Performance analysis expects a computational density of 5.84 tera operations per second (TOPS) per mm^2 and a power efficiency of 47.94 TOPS/W, marking a 6.87-times improvement achieved through the hardware-software co-design approach. By reducing both hardware requirements and control complexity across multiple dimensions, this work explores a new pathway to push the limits of optical computing in the pursuit of high efficiency and scalability.
- Abstract(参考訳): 人工知能(AI)とディープニューラルネットワーク(DNN)の最近の進歩は多くの分野に革命をもたらし、大規模なデータセットから複雑な特徴を抽出することで複雑なタスクを可能にした。
しかし、計算需要の指数的な増加は、従来の電気ハードウェアアクセラレーターの能力を上回っている。
光コンピューティングは、並列性、高い計算速度、低消費電力という固有の利点のために、有望な代替手段を提供する。
しかし、一般的な行列乗算(GEMM)のために設計された現在のフォトニック集積回路(PIC)は、大きなフットプリント、電気光学(E-O)インタフェースの高コスト、高制御複雑性により制約され、スケーラビリティが制限される。
これらの課題を克服するために、構造圧縮型光ニューラルネットワーク(StrC-ONN)アーキテクチャのためのブロック循環型フォトニックテンソルコア(CirPTC)を導入する。
重み付けに構造化圧縮戦略を適用することで、StrC-ONNは、ネットワークの普遍的な表現可能性を維持しながら、モデルパラメータとハードウェア要件を著しく削減し、同等の表現性を維持する。
さらに、オンチップの非理想性を補償し、モデルロバスト性と精度を向上させるハードウェア対応トレーニングフレームワークを提案する。
我々は、画像処理と分類タスクを実験的に実証し、最大74.91%のトレーニング可能なパラメータを削減し、競争精度を維持した。
性能分析では、計算密度は1ミリ^2当たり5.84テラオペレーション(TOPS)、電力効率は47.94TOPS/Wであり、ハードウェアとソフトウェアの共同設計アプローチによる6.87タイムの改善が期待されている。
この研究は、複数の次元にわたるハードウェア要件と制御の複雑さを減らし、高い効率とスケーラビリティを追求する光コンピューティングの限界を推し進める新たな経路を探求する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Optical training of large-scale Transformers and deep neural networks with direct feedback alignment [48.90869997343841]
我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。
光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を最大1500テラOpsで行う。
我々は、ハイブリッド光アプローチの計算スケーリングについて検討し、超深度・広帯域ニューラルネットワークの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-09-01T12:48:47Z) - SCATTER: Algorithm-Circuit Co-Sparse Photonic Accelerator with Thermal-Tolerant, Power-Efficient In-situ Light Redistribution [7.378742476019604]
フォトニックコンピューティングは、計算集約人工知能(AI)ワークロードを加速するための有望なソリューションとして登場した。
しかし、リコンフィグアビリティの制限、高電気光学変換コスト、サーマル感度は、現在の光学アナログコンピューティングエンジンの展開を制限し、大規模に電力制限されたパフォーマンスに敏感なAIワークロードをサポートする。
SCATTERは、耐熱性、高効率な光再分配、パワーゲーティングによる動的再構成可能な信号経路を特徴とする、新しいアルゴリズム・回路共分散フォトニックアクセラレータである。
論文 参考訳(メタデータ) (2024-07-07T22:57:44Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - TeMPO: Efficient Time-Multiplexed Dynamic Photonic Tensor Core for Edge
AI with Compact Slow-Light Electro-Optic Modulator [44.74560543672329]
我々は,TMPOと呼ばれる時間多重化動的フォトニックテンソルアクセラレータを,クロス層デバイス/回路/アーキテクチャのカスタマイズにより提案する。
我々は,368.6TOPSピーク性能,22.3TOPS/Wエネルギー効率,1.2TOPS/mm$2$計算密度を実現した。
この研究は、多層共設計とドメイン固有のカスタマイズの力を示し、将来の電子フォトニクス加速器への道を開く。
論文 参考訳(メタデータ) (2024-02-12T03:40:32Z) - Sophisticated deep learning with on-chip optical diffractive tensor
processing [5.081061839052458]
フォトニック集積回路は、電子回路によってもたらされる帯域制限と電力ウォールを緩和するための効率的なアプローチを提供する。
我々は、オンチップ回折により、光畳み込みユニット(OCU)と呼ばれる畳み込み加速度を実装する光学コンピューティングアーキテクチャを提案する。
OCUを基本単位として、光学畳み込みニューラルネットワーク(oCNN)を構築し、分類と回帰という2つの一般的なディープラーニングタスクを実装する。
論文 参考訳(メタデータ) (2022-12-20T03:33:26Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Silicon photonic subspace neural chip for hardware-efficient deep
learning [11.374005508708995]
光ニューラルネットワーク(ONN)は次世代のニューロコンピューティングの候補として期待されている。
ハードウェア効率の良いフォトニックサブスペースニューラルネットワークアーキテクチャを考案する。
我々は,バタフライ型プログラマブルシリコンフォトニック集積回路上でPSNNを実験的に実証した。
論文 参考訳(メタデータ) (2021-11-11T06:34:05Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。