Fugu-MT 論文翻訳(概要): FPGA-Accelerated SpeckleNN with SNL for Real-time X-ray Single-Particle Imaging

論文の概要: FPGA-Accelerated SpeckleNN with SNL for Real-time X-ray Single-Particle Imaging

arxiv url: http://arxiv.org/abs/2502.19734v1
Date: Thu, 27 Feb 2025 03:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.744674
Title: FPGA-Accelerated SpeckleNN with SNL for Real-time X-ray Single-Particle Imaging
Title（参考訳）: リアルタイムX線単一粒子イメージングのためのSNLを用いたFPGA加速スペックルNN
Authors: Abhilasha Dave, Cong Wang, James Russell, Ryan Herbst, Jana Thayer,
Abstract要約: X-ray Single-Particle Imaging (SPI) におけるリアルタイムスペックルパターン分類のためのSpeckleNNモデルの特殊バージョンを実装した。このハードウェアは、高速X線自由電子レーザー(XFEL)施設の検出器近傍での推論に最適化されている。 KCU1500 FPGA上に配備されたこのモデルは、DSPの71%、LUTの75%、FFの48%を使用し、平均消費電力は9.4Wである。
参考スコア（独自算出の注目度）: 3.082179769159827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We implement a specialized version of our SpeckleNN model for real-time speckle pattern classification in X-ray Single-Particle Imaging (SPI) using the SLAC Neural Network Library (SNL) on an FPGA. This hardware is optimized for inference near detectors in high-throughput X-ray free-electron laser (XFEL) facilities like the Linac Coherent Light Source (LCLS). To fit FPGA constraints, we optimized SpeckleNN, reducing parameters from 5.6M to 64.6K (98.8% reduction) with 90% accuracy. We also compressed the latent space from 128 to 50 dimensions. Deployed on a KCU1500 FPGA, the model used 71% of DSPs, 75% of LUTs, and 48% of FFs, with an average power consumption of 9.4W. The FPGA achieved 45.015us inference latency at 200 MHz. On an NVIDIA A100 GPU, the same inference consumed ~73W and had a 400us latency. Our FPGA version achieved an 8.9x speedup and 7.8x power reduction over the GPU. Key advancements include model specialization and dynamic weight loading through SNL, eliminating time-consuming FPGA re-synthesis for fast, continuous deployment of (re)trained models. These innovations enable real-time adaptive classification and efficient speckle pattern vetoing, making SpeckleNN ideal for XFEL facilities. This implementation accelerates SPI experiments and enhances adaptability to evolving conditions.
Abstract（参考訳）: FPGA上のSLACニューラルネットワークライブラリ(SNL)を用いて,X線単一粒子イメージング(SPI)におけるリアルタイムスペックルパターン分類のためのSpeckleNNモデルの特殊バージョンを実装した。このハードウェアは、Linac Coherent Light Source (LCLS)のような高出力X線自由電子レーザー(XFEL)の検出器近傍での推論に最適化されている。 FPGAの制約に合わせるためにSpeckleNNを最適化し、パラメータを5.6Mから64.6K(98.8%削減)に90%精度で削減した。また、潜伏空間を128次元から50次元に圧縮した。 KCU1500 FPGA上に配備されたこのモデルは、DSPの71%、LUTの75%、FFの48%を使用し、平均消費電力は9.4Wである。 FPGAは200MHzで45.015usの推論遅延を達成した。 NVIDIA A100 GPUでは、同じ推論で73Wを消費し、400usのレイテンシを持つ。我々のFPGAバージョンはGPUの8.9倍のスピードアップと7.8倍の電力削減を達成した。主な進歩としては、SNLによるモデル特殊化と動的重み付け、(再)訓練されたモデルの高速かつ継続的な展開に要するFPGA再合成の削減がある。これらの革新により、リアルタイム適応型分類と効率的なスペックルパターン拒否が可能となり、SpeckleNNはXFEL施設にとって理想的なものとなった。この実装はSPI実験を加速し、進化する条件への適応性を高める。

関連論文リスト

LiQSS: Post-Transformer Linear Quantum-Inspired State-Space Tensor Networks for Real-Time 6G [85.58816960936069]
Sixth-Generation (6G) Open Radio Access Networks (O-RAN) における能動的およびエージェント的制御は、厳密なニアタイム(Near-RT)レイテンシと計算制約の下で制御グレードの予測を必要とする。本稿では,効率的な無線テレメトリ予測のための変圧器後パラダイムについて検討する。本稿では、自己アテンションを安定な状態空間動的カーネルに置き換える量子インスピレーション付き状態空間テンソルネットワークを提案する。
論文参考訳（メタデータ） (2026-01-18T12:08:38Z)
Efficient FPGA-accelerated Convolutional Neural Networks for Cloud Detection on CubeSats [0.5420492913071214]
資源制約付きCubeSatミッションにおけるクラウド検出のためのFPGA加速畳み込みニューラルネットワーク(CNN)モデルの実装について述べる。本研究では,ピクセルワイド(Pixel-NetとPatch-Net)と画像ワイド(U-NetとScene-Net)の両方のモデルを用いて,精度,レイテンシ,モデル複雑性のトレードオフをベンチマークする。全てのモデルはFPGA後の高精度な統合を保ち、量子化とプルーニング後に最大精度がわずか0.6%低下した。
論文参考訳（メタデータ） (2025-04-04T19:32:47Z)
Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文参考訳（メタデータ） (2024-10-07T05:04:13Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文参考訳（メタデータ） (2024-01-05T09:32:39Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
End-to-end codesign of Hessian-aware quantized neural networks for FPGAs and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文参考訳（メタデータ） (2023-04-13T18:00:01Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文参考訳（メタデータ） (2022-05-18T17:49:49Z)
Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。 EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文参考訳（メタデータ） (2021-01-20T06:18:38Z)
Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA Accelerator Architecture for Accelerating Convolutional Neural Network Inference in Cloud/Edge Computing [8.826181951806928]
Systolic-CNNはOpenCLで定義されたスケーラブルでランタイムフレキシブルなFPGAアクセラレータアーキテクチャである。 Systolic-CNNは、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化されている。
論文参考訳（メタデータ） (2020-12-06T03:53:11Z)
SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文参考訳（メタデータ） (2019-10-16T23:30:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。