Fugu-MT 論文翻訳(概要): Design and Implementation of Hardware Accelerators for Neural Processing Applications

論文の概要: Design and Implementation of Hardware Accelerators for Neural Processing Applications

arxiv url: http://arxiv.org/abs/2402.00051v1
Date: Thu, 25 Jan 2024 01:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-04 05:12:22.300609
Title: Design and Implementation of Hardware Accelerators for Neural Processing Applications
Title（参考訳）: ニューラル処理用ハードウェア加速器の設計と実装
Authors: Shilpa Mayannavar and Uday Wali
Abstract要約: 自己共振ネットワーク(ARN)を用いた画像認識システムが実装され、約94%の精度でARNの2層のみの精度を実現した。 ANNで見られる大規模な並列処理は、CPU設計にいくつかの課題を提示している。マルチオペランド加算に必要なキャリービットの正確な数を計算する定理が論文で提示されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Primary motivation for this work was the need to implement hardware accelerators for a newly proposed ANN structure called Auto Resonance Network (ARN) for robotic motion planning. ARN is an approximating feed-forward hierarchical and explainable network. It can be used in various AI applications but the application base was small. Therefore, the objective of the research was twofold: to develop a new application using ARN and to implement a hardware accelerator for ARN. As per the suggestions given by the Doctoral Committee, an image recognition system using ARN has been implemented. An accuracy of around 94% was achieved with only 2 layers of ARN. The network also required a small training data set of about 500 images. Publicly available MNIST dataset was used for this experiment. All the coding was done in Python. Massive parallelism seen in ANNs presents several challenges to CPU design. For a given functionality, e.g., multiplication, several copies of serial modules can be realized within the same area as a parallel module. Advantage of using serial modules compared to parallel modules under area constraints has been discussed. One of the module often useful in ANNs is a multi-operand addition. One problem in its implementation is that the estimation of carry bits when the number of operands changes. A theorem to calculate exact number of carry bits required for a multi-operand addition has been presented in the thesis which alleviates this problem. The main advantage of the modular approach to multi-operand addition is the possibility of pipelined addition with low reconfiguration overhead. This results in overall increase in throughput for large number of additions, typically seen in several DNN configurations.
Abstract（参考訳）: この研究の主な動機は、ロボット・モーション・プランニングのためにAuto Resonance Network(ARN)と呼ばれる新しいANN構造のためのハードウェア・アクセラレーターを実装する必要性であった。 ARNはフィードフォワード階層的で説明可能なネットワークである。さまざまなAIアプリケーションで使用できるが、アプリケーションベースは小さかった。そのため、研究の目的は、ALNを使った新しいアプリケーションを開発することと、ARNのためのハードウェアアクセラレータを実装することである。博士委員会が提案したように、ARNを用いた画像認識システムが実装されている。 ARNの2層だけで、およそ94%の精度が達成された。ネットワークには、約500枚の画像からなる小さなトレーニングデータセットも必要だった。この実験では、一般公開されたMNISTデータセットが使用された。コーディングはすべてPythonで行われました。 ANNに見られる大規模な並列処理は、CPU設計にいくつかの課題を提示している。与えられた機能、例えば乗算の場合、複数のシリアルモジュールのコピーは、パラレルモジュールと同じ領域内で実現することができる。領域制約下での並列モジュールに対するシリアルモジュールの使用の有用性について論じる。 ANNでよく使われるモジュールの1つは、マルチオペランドの追加である。その実装における1つの問題は、オペランド数の変化によるキャリービットの推定である。マルチオペランド加算に必要なキャリービットの正確な数を計算する定理が、この問題を緩和する論文で提示されている。マルチオペレーション付加に対するモジュラーアプローチの主な利点は、再設定オーバーヘッドの少ないパイプライン付加の可能性である。これにより、多数の追加に対してスループットが全般的に向上し、通常はいくつかのDNN構成で見られるようになる。

関連論文リスト

NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文参考訳（メタデータ） (2024-11-07T14:08:35Z)
Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks [4.407841002228536]
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。また、各CNN層における計算を複数のチャンクに分割する新しい分割アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-29T09:50:21Z)
Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。 Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2023-10-31T09:20:59Z)
General-Purpose Multimodal Transformer meets Remote Sensing Semantic Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文参考訳（メタデータ） (2023-07-07T04:58:34Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。 NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。 NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文参考訳（メタデータ） (2022-10-14T18:00:07Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-12-23T09:33:11Z)
Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。 EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文参考訳（メタデータ） (2020-04-06T19:52:48Z)
Learning Sparse & Ternary Neural Networks with Entropy-Constrained Trained Ternarization (EC2T) [17.13246260883765]
ディープニューラルネットワーク(DNN)は、さまざまな機械学習アプリケーションで顕著な成功を収めている。近年,資源に制約のあるデバイスにDNNを配置することへの関心が高まっている。本稿では,スパースニューラルネットワークと3次ニューラルネットワークの汎用フレームワークであるEntropy-Constrained Trained Ternarization (EC2T)を提案する。
論文参考訳（メタデータ） (2020-04-02T15:38:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。