Fugu-MT 論文翻訳(概要): Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs

論文の概要: Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs

arxiv url: http://arxiv.org/abs/2404.14436v1
Date: Fri, 19 Apr 2024 20:03:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 18:17:13.726653
Title: Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs
Title（参考訳）: eFPGAをターゲットとした資源効率の中性子/ガンマ分類MLモデルの検討
Authors: Jyothisraj Johnson, Billy Boxer, Tarun Prakash, Carl Grace, Peter Sorensen, Mani Tripathi,
Abstract要約: オープンソース組み込みFPGA(eFPGA)フレームワークは、ハードウェアに機械学習モデルを実装するための、代替的で柔軟な経路を提供する。完全連結ニューラルネットワーク(fcNN)と強化決定木(BDT)モデルのeFPGA実装のパラメータ空間について検討する。この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been considerable interest and resulting progress in implementing machine learning (ML) models in hardware over the last several years from the particle and nuclear physics communities. A big driver has been the release of the Python package, hls4ml, which has enabled porting models specified and trained using Python ML libraries to register transfer level (RTL) code. So far, the primary end targets have been commercial FPGAs or synthesized custom blocks on ASICs. However, recent developments in open-source embedded FPGA (eFPGA) frameworks now provide an alternate, more flexible pathway for implementing ML models in hardware. These customized eFPGA fabrics can be integrated as part of an overall chip design. In general, the decision between a fully custom, eFPGA, or commercial FPGA ML implementation will depend on the details of the end-use application. In this work, we explored the parameter space for eFPGA implementations of fully-connected neural network (fcNN) and boosted decision tree (BDT) models using the task of neutron/gamma classification with a specific focus on resource efficiency. We used data collected using an AmBe sealed source incident on Stilbene, which was optically coupled to an OnSemi J-series SiPM to generate training and test data for this study. We investigated relevant input features and the effects of bit-resolution and sampling rate as well as trade-offs in hyperparameters for both ML architectures while tracking total resource usage. The performance metric used to track model performance was the calculated neutron efficiency at a gamma leakage of 10$^{-3}$. The results of the study will be used to aid the specification of an eFPGA fabric, which will be integrated as part of a test chip.
Abstract（参考訳）: ハードウェアにおける機械学習(ML)モデルの実装には、ここ数年、粒子物理学と核物理学のコミュニティからかなりの関心が寄せられ、進歩を遂げてきた。これはPython MLライブラリを使用して指定およびトレーニングされたモデルを移植して、転送レベル(RTL)コードを登録可能にするものだ。これまでのところ、主なターゲットはFPGAやASIC上のカスタムブロックの商用化だった。しかし、最近のオープンソース組み込みFPGA(eFPGA)フレームワークの開発は、ハードウェアにMLモデルを実装するための代替的で柔軟な経路を提供している。これらのカスタマイズされたeFPGAファブリックは、全体的なチップ設計の一部として統合することができる。一般に、完全なカスタム、eFPGA、商用FPGA ML実装間の決定は、エンドユースアプリケーションの詳細に依存する。本研究では,完全連結ニューラルネットワーク(fcNN)のeFPGA実装のためのパラメータ空間と,資源効率に着目した中性子/ガンマ分類タスクを用いた決定木(BDT)モデルについて検討した。我々は,OnSemi J-Series SiPMと光学的に結合したAmBeシールソースインシデントを用いて収集したデータを用いて,本研究のトレーニングデータと試験データを生成した。本研究は,MLアーキテクチャの両方のハイパーパラメータにおいて,関連する入力特徴とビット分解能およびサンプリングレートの影響について検討し,総リソース使用量の追跡を行った。モデル性能を追跡するために用いられる性能指標は10$^{-3}$のガンマリークにおける中性子効率の計算値であった。この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。

関連論文リスト

Enabling Low-Latency Machine learning on Radiation-Hard FPGAs with hls4ml [0.6253022837963071]
本稿では,FPGA上で実現可能な,超高速で放射能の高い機械学習(ML)アプリケーションの最初の実演について述べる。我々は32サンプルのタイミング読み出しを圧縮する軽量オートエンコーダを開発した。性能損失を最小限に抑えながら10ビットの重みに縮めることができることを示す。
論文参考訳（メタデータ） (2026-02-17T17:30:28Z)
BitLogic: Training Framework for Gradient-Based FPGA-Native Neural Networks [28.844098517315228]
BitLogicはFPGAネイティブニューラルネットワークのためのエンドツーエンドのトレーニング可能なフレームワークである。マルチ累積演算をFPGAプリミティブに直接マップする微分可能なLUTノードに置き換える。ネイティブバイナリ計算、疎結合、効率的なハードウェア実現を提供する。
論文参考訳（メタデータ） (2026-02-07T06:32:44Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs [0.2294388534633318]
eFPGAはエッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを低消費電力で設計することができる。限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限した。提案するeFPGAアクセラレータは、リソース使用量の最小化と、スループットに対するオンフィールドリカバリの柔軟性の実現に重点を置いている。
論文参考訳（メタデータ） (2025-02-10T12:49:22Z)
rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。 NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文参考訳（メタデータ） (2024-08-09T19:35:10Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。 A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。 A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文参考訳（メタデータ） (2023-08-25T17:28:58Z)
Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文参考訳（メタデータ） (2023-07-16T01:20:17Z)
End-to-end codesign of Hessian-aware quantized neural networks for FPGAs and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文参考訳（メタデータ） (2023-04-13T18:00:01Z)
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文参考訳（メタデータ） (2023-03-30T08:25:27Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文参考訳（メタデータ） (2022-06-23T15:57:17Z)
HALF: Holistic Auto Machine Learning for FPGAs [1.9146960682777232]
ディープニューラルネットワーク(DNN)は、画像や自然言語処理などの組み込みシステムに関連する領域において、複雑な問題を解決することができる。特定のFPGAプラットフォームにDNNを効率よく実装するためには、例えばエネルギー効率など、膨大な設計パラメータを考慮する必要がある。 FPGA上でのDNN実装の質は, 自動的, 全体的設計手法により大幅に向上する。
論文参考訳（メタデータ） (2021-06-28T14:45:47Z)
End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文参考訳（メタデータ） (2020-12-07T09:14:55Z)
Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation [87.53808756910452]
そこで我々は,Alpha-Refineと呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案する。正確なピクセルワイド相関層と空間認識の非局所層を利用して特徴を融合させ、バウンディングボックス、コーナー、マスクの3つの相補的な出力を予測する。提案するAlpha-Refineモジュールは,DiMP,ATOM,SiamRPN++,RTMDNet,ECOの5つの有名かつ最先端のベーストラッカーに適用する。
論文参考訳（メタデータ） (2020-07-04T07:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。