論文の概要: Batch Processing and Data Streaming Fourier-based Convolutional Neural
Network Accelerator
- arxiv url: http://arxiv.org/abs/2112.12297v1
- Date: Thu, 23 Dec 2021 01:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:26:14.234324
- Title: Batch Processing and Data Streaming Fourier-based Convolutional Neural
Network Accelerator
- Title(参考訳): バッチ処理とデータストリーミングフーリエに基づく畳み込みニューラルネットワーク加速器
- Authors: Zibo Hu, Shurui Li, Russell L.T. Schwartz, Maria Solyanik-Gorgone,
Mario Miscuglio, Puneet Gupta, Volker J. Sorger
- Abstract要約: ナビゲーション、トラッキング、リアルタイムマシンアクションシステムなど、多数のアプリケーションにおいて、最小レイテンシの人工ニューラルネットワークによる決定が最重要である。
これにより、機械学習ハードウェアは、高いスループットで多次元データを処理する必要がある。
本稿では,Fourier Convolutional Neural Network(FCNN)アクセラレータを用いた,ニューマンベースではない機械学習アクセラレーションを実演する。
- 参考スコア(独自算出の注目度): 4.7257913147626995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making by artificial neural networks with minimal latency is
paramount for numerous applications such as navigation, tracking, and real-time
machine action systems. This requires the machine learning hardware to handle
multidimensional data with a high throughput. Processing convolution operations
being the major computational tool for data classification tasks,
unfortunately, follows a challenging run-time complexity scaling law. However,
implementing the convolution theorem homomorphically in a Fourier-optic
display-light-processor enables a non-iterative O(1) runtime complexity for
data inputs beyond 1,000 x 1,000 large matrices. Following this approach, here
we demonstrate data streaming multi-kernel image batch-processing with a
Fourier Convolutional Neural Network (FCNN) accelerator. We show image batch
processing of large-scale matrices as passive 2-million dot-product
multiplications performed by digital light-processing modules in the Fourier
domain. In addition, we parallelize this optical FCNN system further by
utilizing multiple spatio-parallel diffraction orders, thus achieving a
98-times throughput improvement over state-of-art FCNN accelerators. The
comprehensive discussion of the practical challenges related to working on the
edge of the system's capabilities highlights issues of crosstalk in the Fourier
domain and resolution scaling laws. Accelerating convolutions by utilizing the
massive parallelism in display technology brings forth a non-van Neuman-based
machine learning acceleration.
- Abstract(参考訳): ナビゲーション、トラッキング、リアルタイムマシンアクションシステムなど、多数のアプリケーションにおいて、最小レイテンシの人工ニューラルネットワークによる決定が最重要である。
これには機械学習ハードウェアが高スループットで多次元データを処理する必要がある。
データ分類タスクの主要な計算ツールである畳み込み処理は、残念ながら、実行時の複雑さのスケーリング法則に従っている。
しかし、フーリエ光学ディスプレイ光プロセッサに準同型に畳み込み定理を実装することで、1000 x 1000以上の大きな行列を含むデータ入力に対する非イテレーティブなo(1)ランタイムの複雑さが実現される。
本稿では,Fourier Convolutional Neural Network (FCNN)アクセラレータを用いたマルチカーネル画像バッチ処理を実演する。
本稿では,フーリエ領域におけるディジタル光処理モジュールによるパッシブ2億個のドット積乗法として,大規模行列の画像バッチ処理を示す。
さらに、この光学式FCNNシステムの並列化を、複数のスパパラレル回折順序を利用して行い、最先端のFCNNアクセラレータよりも98倍のスループット向上を実現する。
システムの能力の最先端で作業することに関する実践的課題に関する包括的な議論は、フーリエ領域におけるクロストークの問題と解決スケーリング法則を強調している。
ディスプレイ技術における膨大な並列性を利用することで畳み込みを加速することは、非バンニューマンベースの機械学習アクセラレーションをもたらす。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Scaling Up Computer Vision Neural Networks Using Fast Fourier Transform [0.0]
ディープラーニングベースのComputer Visionフィールドは、畳み込みニューラルネットワークを効果的にスケールアップするために、畳み込みのためのより大きなカーネルを探そうとしている。
視覚変換器のような新しいモデルのパラダイムは、入力シーケンスの2次複雑さのため、より大きな高解像度画像にスケールアップすることは困難である。
論文 参考訳(メタデータ) (2023-02-02T19:19:10Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - RF-Photonic Deep Learning Processor with Shannon-Limited Data Movement [0.0]
光ニューラルネットワーク(ONN)は、超低レイテンシとエネルギー消費を持つ有望な加速器である。
我々は、周波数領域のデータを符号化する乗法的アナログ周波数変換ONN(MAFT-ONN)を導入する。
我々は、生のRF信号で完全にアナログのディープラーニングを演算する最初のハードウェアアクセラレータを実験的に実証した。
論文 参考訳(メタデータ) (2022-07-08T16:37:13Z) - Time-coded Spiking Fourier Transform in Neuromorphic Hardware [4.432142139656578]
本研究では,Fourier変換と数学的に等価な時間ベースのスパイクニューラルネットワークを提案する。
我々はニューロモルフィックチップLoihiにネットワークを実装し、自動車周波数変調連続波レーダを用いた5つの実シナリオの実験を行った。
論文 参考訳(メタデータ) (2022-02-25T12:15:46Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Adaptive Machine Learning for Time-Varying Systems: Low Dimensional
Latent Space Tuning [91.3755431537592]
本稿では,時間変化システムを対象とした適応機械学習手法を提案する。
我々は,エンコーダデコーダCNNのエンコーダ部出力において,非常に高次元(N>100k)の入力を低次元(N2)潜在空間にマッピングする。
そこで本手法では,割り込みを伴わないフィードバックに基づいて,内部の相関関係を学習し,その進化をリアルタイムで追跡する。
論文 参考訳(メタデータ) (2021-07-13T16:05:28Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Knowledge Distillation Circumvents Nonlinearity for Optical
Convolutional Neural Networks [4.683612295430957]
本稿では、スペクトルCNN線形カウンタ部(SCLC)ネットワークアーキテクチャを提案し、非線形性の必要性を回避するための知識蒸留(KD)アプローチを開発する。
KDアプローチは、CNNの標準線形バージョンを簡単に上回るパフォーマンスを達成し、非線形ネットワークのパフォーマンスに近づくことができることを示しています。
論文 参考訳(メタデータ) (2021-02-26T06:35:34Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。