論文の概要: Caffe Barista: Brewing Caffe with FPGAs in the Training Loop
- arxiv url: http://arxiv.org/abs/2006.13829v1
- Date: Thu, 18 Jun 2020 17:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:24:52.900349
- Title: Caffe Barista: Brewing Caffe with FPGAs in the Training Loop
- Title(参考訳): Caffe Barista: トレーニングループでFPGAでカフェを醸造する
- Authors: Diederik Adriaan Vink, Aditya Rajagopal, Stylianos I. Venieris,
Christos-Savvas Bouganis
- Abstract要約: Baristaは、CNN(Convolutional Neural Network)のトレーニングにFPGAをシームレスに統合する自動ツールフローである。
この作業では、人気のあるディープラーニングフレームワークCaffe内のCNNのトレーニングにFPGAをシームレスに統合する自動化ツールフローであるBaristaを紹介している。
- 参考スコア(独自算出の注目度): 13.83645579871775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the complexity of deep learning (DL) models increases, their compute
requirements increase accordingly. Deploying a Convolutional Neural Network
(CNN) involves two phases: training and inference. With the inference task
typically taking place on resource-constrained devices, a lot of research has
explored the field of low-power inference on custom hardware accelerators. On
the other hand, training is both more compute- and memory-intensive and is
primarily performed on power-hungry GPUs in large-scale data centres. CNN
training on FPGAs is a nascent field of research. This is primarily due to the
lack of tools to easily prototype and deploy various hardware and/or
algorithmic techniques for power-efficient CNN training. This work presents
Barista, an automated toolflow that provides seamless integration of FPGAs into
the training of CNNs within the popular deep learning framework Caffe. To the
best of our knowledge, this is the only tool that allows for such versatile and
rapid deployment of hardware and algorithms for the FPGA-based training of
CNNs, providing the necessary infrastructure for further research and
development.
- Abstract(参考訳): ディープラーニング(DL)モデルの複雑さが増大するにつれて、その計算要求は増加する。
畳み込みニューラルネットワーク(CNN)のデプロイには、トレーニングと推論という2つのフェーズがある。
推論タスクは通常、リソース制約のあるデバイスで実行されるため、多くの研究がカスタムハードウェアアクセラレータの低消費電力推論の分野を調査している。
一方、トレーニングは計算集約とメモリ集約の両方で、主に大規模データセンターで電力消費のGPU上で実行される。
FPGAにおけるCNNトレーニングは、初期の研究分野である。
これは主に、電力効率のよいCNNトレーニングのための様々なハードウェアおよび/またはアルゴリズム技術を簡単にプロトタイプしてデプロイするツールがないためである。
この作業では、人気のあるディープラーニングフレームワークCaffe内のCNNのトレーニングにFPGAをシームレスに統合する自動化ツールフローであるBaristaを紹介している。
私たちの知る限りでは、CNNのFPGAベースのトレーニングのために、ハードウェアとアルゴリズムの汎用的で迅速なデプロイを可能にする唯一のツールであり、さらなる研究開発に必要なインフラを提供します。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Harnessing FPGA Technology for Enhanced Biomedical Computation [0.0]
この研究は、CNN、Recurrent Neural Networks (RNN)、Long Short-Term Memory Networks (LSTMs)、Deep Belief Networks (DBNs)のような洗練されたニューラルネットワークフレームワークを掘り下げる。
レイテンシやスループットなどの性能指標を評価することにより,高度なバイオメディカルコンピューティングにおけるFPGAの有効性を示す。
論文 参考訳(メタデータ) (2023-11-21T08:51:58Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。
我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。
この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文 参考訳(メタデータ) (2023-07-16T01:20:17Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - A Comprehensive Survey on Distributed Training of Graph Neural Networks [59.785830738482474]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーション分野において強力なアルゴリズムモデルであることが示されている。
GNNトレーニングを大規模かつ継続的なグラフにスケールアップするために、最も有望なソリューションは分散トレーニングである。
分散GNNトレーニングに関する研究の規模は、非常に広範であり、出版のペースは極めて速い。
論文 参考訳(メタデータ) (2022-11-10T06:22:12Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Multi-node Bert-pretraining: Cost-efficient Approach [6.5998084177955425]
大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-01T05:49:20Z) - CNN2Gate: Toward Designing a General Framework for Implementation of
Convolutional Neural Networks on FPGA [0.3655021726150368]
本稿では,FPGAターゲットに対するCNNモデルのコンパイルを支援する統合フレームワークを提案する。
CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。
本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。
論文 参考訳(メタデータ) (2020-04-06T01:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。