論文の概要: Exploring Parallelism in FPGA-Based Accelerators for Machine Learning Applications
- arxiv url: http://arxiv.org/abs/2511.11640v1
- Date: Sun, 09 Nov 2025 05:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.775263
- Title: Exploring Parallelism in FPGA-Based Accelerators for Machine Learning Applications
- Title(参考訳): FPGAベースの機械学習用加速器における並列性探索
- Authors: Sed Centeno, Christopher Sprague, Arnab A Purkayastha, Ray Simar, Neeraj Magotra,
- Abstract要約: 投機的バックプロパゲーションは、前方と後方のパスをオーバーラップすることで、ニューラルネットワークのトレーニングを加速する有望な手法として登場した。
並列プログラミングプラットフォームとしてOpenMPを用いたMNISTデータセットの投機的バックプロパゲーションを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative backpropagation has emerged as a promising technique to accelerate the training of neural networks by overlapping the forward and backward passes. Leveraging speculative weight updates when error gradients fall within a specific threshold reduces training time without substantially compromising accuracy. In this work, we implement speculative backpropagation on the MNIST dataset using OpenMP as the parallel programming platform. OpenMP's multi-threading capabilities enable simultaneous execution of forward and speculative backpropagation steps, significantly improving training speed. The application is planned for synthesis on a state-of-the-art FPGA to demonstrate its potential for hardware acceleration. Our CPU-based experimental results demonstrate that speculative backpropagation achieves a maximum speedup of 24% in execution time when using a threshold of 0.25, and accuracy remaining within 3-4% of the baseline across various epochs. Additionally, when comparing individual step execution time, speculative backpropagation yields a maximum speedup of 35% over the baseline, demonstrating the effectiveness of overlapping forward and backward passes.
- Abstract(参考訳): 投機的バックプロパゲーションは、前方と後方のパスをオーバーラップすることで、ニューラルネットワークのトレーニングを加速する有望な手法として登場した。
特定のしきい値に誤差勾配が落ちると、投機的な重み更新を活用すれば、精度を著しく損なうことなく、トレーニング時間を短縮できる。
本研究では,並列プログラミングプラットフォームとしてOpenMPを用いて,MNISTデータセットの投機的バックプロパゲーションを実装した。
OpenMPのマルチスレッド機能は、前方および投機的なバックプロパゲーションステップの同時実行を可能にし、トレーニング速度を大幅に改善する。
このアプリケーションは、ハードウェアアクセラレーションの可能性を示すため、最先端のFPGA上での合成が計画されている。
CPUベースの実験結果から, 投機的バックプロパゲーションは, しきい値0.25を使用する場合の実行時間の最大24%の高速化を実現し, 各種エポックにおけるベースラインの34%以内の精度を達成できた。
さらに、個々のステップの実行時間を比較すると、投機的バックプロパゲーションはベースライン上で最大35%のスピードアップをもたらし、重なり合う前方と後方のパスの有効性を示す。
関連論文リスト
- SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting [12.317709090608837]
SpecEEは投機的早期終了を伴う高速推論エンジンである。
SpecEEはクラウドとPCのシナリオでそれぞれLlama2-7Bで2.25倍と2.43倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-11T02:38:53Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Optimized Speculative Sampling for GPU Hardware Accelerators [14.681982904792763]
並列ハードウェアアクセラレータの投機的サンプリングを最適化し,サンプリング速度を向上する。
ワークロードを複数のGPUスレッドに分散し、スレッドブロック内の行列セグメントの同時操作を可能にします。
本手法の有効性を検証するために,音声認識と要約タスクの両方について広範な実験を行った。
論文 参考訳(メタデータ) (2024-06-16T17:19:23Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z) - BoA-PTA, A Bayesian Optimization Accelerated Error-Free SPICE Solver [2.16151779631292]
擬似過渡解析(PTA)は最も有望な継続SPICE解法の一つである。
本稿では,ベイズ最適化のPTAであるBoA-PTAを提案する。
43個のベンチマーク回路において,他のSOTA SPICEソルバに対してBoA-PTAを評価し,元のCEPTAよりも平均2.3倍(最大3.5倍)のスピードアップを示した。
論文 参考訳(メタデータ) (2021-07-31T14:58:22Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with
Quantization-Aware Training and Adaptive Parallelism [0.0]
FIXARはSW/HWの共同設計アプローチを用いて、初めて固定点データ型と算術単位を使用する。
量子アウェアトレーニング(QAT)は、アクティベーションの範囲に基づいてデータ精度を低減し、報酬の劣化を最小限に抑えるために再トレーニングを実行する。
FIXARはXilinx U50と25293.3のトレーニングスループット(IPS)と2638.0のIPS/W加速効率で実装された。
論文 参考訳(メタデータ) (2021-02-24T07:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。