論文の概要: HGQ-LUT: Fast LUT-Aware Training and Efficient Architectures for DNN Inference
- arxiv url: http://arxiv.org/abs/2604.22293v1
- Date: Fri, 24 Apr 2026 07:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.376537
- Title: HGQ-LUT: Fast LUT-Aware Training and Efficient Architectures for DNN Inference
- Title(参考訳): HGQ-LUT:DNN推論のための高速LUT対応トレーニングと効率的なアーキテクチャ
- Authors: Chang Sun, Zhiqiang Que, Bakhtiar Zadeh, Qibin Liu, Kevin H. Alvarez, Wayne Luk, Maria Spiropulu,
- Abstract要約: この研究は、最新のGPUで100倍以上のトレーニングを加速しながら、最先端のハードウェア効率を実現する新しいLATアプローチであるHGQ-LUTを提示する。
LUT-Dense 層と LUT-Conv 層を組み合わせることで、HGQ-LUT は手動のビット幅調整なしで精度の低いトレードオフを自動的に探索できる。
さらに、HGQ-LUTをオープンソースツールチェーンに統合し、ハイブリッドアーキテクチャの統一設計、コンパイル、ビット実行検証を可能にする。
- 参考スコア(独自算出の注目度): 12.364180908244188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lookup-table (LUT) based neural networks can deliver ultra-low latency and excellent hardware efficiency on FPGAs by mapping arithmetic operations directly onto the logic primitives. However, state-of-the-art LUT-aware training (LAT) approaches remain difficult to use in practice: they are often orders of magnitude slower to train than conventional networks, require non-trivial manual tuning for hardware efficiency, and lack an end-to-end workflow. This work presents HGQ-LUT, integrated in https://github.com/calad0i/HGQ2, a new LAT approach that achieves state-of-the-art hardware efficiency while accelerating training by over 100 times on modern GPUs. HGQ-LUT introduces LUT-Dense and LUT-Conv layers that are implemented with regular, accelerator-efficient tensor operations during training, which are then compiled into logic LUTs for hardware. By combining these layers with fine-grained, element-wise heterogeneous quantization (including zero-bit pruning) and a LUT-aware resource surrogate, HGQ-LUT enables the automatic exploration of accuracy-resource trade-offs without manual bit-width tuning. We further integrate HGQ-LUT into open-source toolchains, enabling unified design, compilation, and bit-exact verification of hybrid architectures that mix LUT-based with conventional arithmetic blocks. These features make LAT-based DNNs practical for real-world deployment, such as at the CERN Large Hadron Collider's experiments.
- Abstract(参考訳): Lookup-table (LUT)ベースのニューラルネットワークは、演算操作を直接論理プリミティブにマッピングすることで、FPGA上で超低レイテンシと優れたハードウェア効率を実現することができる。
しかし、最先端のLUT-Aware Training (LAT) アプローチは、従来のネットワークよりもトレーニングが桁違い遅く、ハードウェア効率に非自明な手動チューニングが必要であり、エンドツーエンドのワークフローが欠如しているため、実際には使用が難しいままである。
この研究は、最新のGPUで100倍以上のトレーニングを加速しながら、最先端のハードウェア効率を達成する新しいLATアプローチであるhttps://github.com/calad0i/HGQ2に統合されたHGQ-LUTを提示する。
HGQ-LUT は LUT-Dense と LUT-Conv レイヤを導入し、トレーニング中に通常のアクセル効率のテンソル操作で実装し、ハードウェア用のロジック LUT にコンパイルする。
これらの層と要素単位の不均一な量子化(ゼロビットプルーニングを含む)とLUT対応リソースサロゲートを組み合わせることで、HGQ-LUTは手動のビット幅調整なしで精度の高いトレードオフを自動探索することができる。
さらに、HGQ-LUTをオープンソースツールチェーンに統合し、LUTベースと従来の算術ブロックを混合したハイブリッドアーキテクチャの統一設計、コンパイル、ビットエクサクティビティ検証を可能にする。
これらの機能は、CERN Large Hadron Collider(英語版)の実験など、LATベースのDNNを現実のデプロイメントに活用する。
関連論文リスト
- NeuraLUT-Assemble: Hardware-aware Assembling of Sub-Neural Networks for Efficient LUT Inference [2.7086888205833968]
ルックアップテーブル(LUT)を活用したNN(Efficient Neural Network)は、新興AIアプリケーションにおいて大きな可能性を示している。
既存のLUTベースの設計では、入力幅のLUTリソースの指数的スケーリングによって制限されたニューロンが要求するファンインが大きいため、精度が低下する。
我々は、これらの制限に対処する新しいフレームワークであるNeuraLUT-Assembleを紹介する。
論文 参考訳(メタデータ) (2025-04-01T09:52:38Z) - SparseLUT: Sparse Connectivity Optimization for Lookup Table-based Deep Neural Networks [0.0]
本稿では,LUTベースのディープニューラルネットワーク(DNN)に適した接続中心トレーニング技術であるSparseLUTを紹介する。
実験の結果、ベンチマーク全体で一貫した精度の改善が見られ、MNISTは最大2.13%向上した。
これはハードウェアのオーバーヘッドを伴わずに実現され、LUTベースのDNNの最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-17T05:21:54Z) - TreeLUT: An Efficient Alternative to Deep Neural Networks for Inference Acceleration Using Gradient Boosted Decision Trees [0.6906005491572401]
FPGA上での勾配向上決定木(GBDT)実装のためのオープンソースツールであるTreeLUTを提案する。
本稿では,複数のデータセットを分類し,超低域と遅延性の評価によく用いられるTreeLUTの有効性を示す。
以上の結果から,TreeLUTはハードウェア利用率,レイテンシ,スループットを,従来の作業に比べて競争精度で大幅に向上することがわかった。
論文 参考訳(メタデータ) (2025-01-02T19:38:07Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural
Network Inference [3.2296078260106174]
本稿では,LUTに基づくトポロジの学習最適化を提案する。
既存のアーキテクチャの実装では、LUT, Kあたりの入力数を手動で指定する必要がある。
本稿では,FPGA推論を対象とするニューラルネットワークにおいて,各LUTに対してKを自動的に学習することのできる,詳細なネットリスト解析手法である論理縮小手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T14:23:24Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。