論文の概要: Enhancing LUT-based Deep Neural Networks Inference through Architecture and Connectivity Optimization
- arxiv url: http://arxiv.org/abs/2601.09773v1
- Date: Wed, 14 Jan 2026 16:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.854728
- Title: Enhancing LUT-based Deep Neural Networks Inference through Architecture and Connectivity Optimization
- Title(参考訳): アーキテクチャと接続性最適化によるLUTに基づくディープニューラルネットワーク推論の強化
- Authors: Binglei Lou, Ruilin Wu, Philip Leong,
- Abstract要約: FPGAのようなリソース制約のあるエッジデバイスにディープニューラルネットワーク(DNN)をデプロイするには、レイテンシ、電力、ハードウェアリソース使用量の間で注意深くバランスする必要がある。
本稿では2つの最適化を通じてこれらの課題に対処する包括的フレームワークであるSparseLUTを提案する。
まず、加算器を介して複数のPolyLUTサブニューロンを集約し、LUT消費量を2.0x-13.9x削減し、推論遅延を1.2x-1.6x削減するアーキテクチャ拡張を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep neural networks (DNNs) on resource-constrained edge devices such as FPGAs requires a careful balance among latency, power, and hardware resource usage, while maintaining high accuracy. Existing Lookup Table (LUT)-based DNNs -- such as LogicNets, PolyLUT, and NeuraLUT -- face two critical challenges: the exponential growth of LUT size and inefficient random sparse connectivity. This paper presents SparseLUT, a comprehensive framework that addresses these challenges through two orthogonal optimizations. First, we propose an architectural enhancement that aggregates multiple PolyLUT sub-neurons via an adder, significantly reducing LUT consumption by 2.0x-13.9x and lowering inference latency by 1.2x-1.6x, all while maintaining comparable accuracy. Building upon this foundation, we further introduce a non-greedy training algorithm that optimizes neuron connectivity by selectively pruning less significant inputs and strategically regrowing more effective ones. This training optimization, which incurs no additional area and latency overhead, delivers consistent accuracy improvements across benchmarks -- achieving up to a 2.13% gain on MNIST and 0.94% on Jet Substructure Classification compared to existing LUT-DNN approaches.
- Abstract(参考訳): FPGAのようなリソース制約のあるエッジデバイスにディープニューラルネットワーク(DNN)をデプロイするには、レイテンシ、電力、ハードウェアリソース使用量の間で慎重にバランスを取る必要がある。
既存のLookup Table (LUT)ベースのDNN(LogicNets、PolyLUT、NeuraLUTなど)は、2つの重要な課題に直面している。
本稿では2つの直交最適化を通じてこれらの課題に対処する包括的フレームワークであるSparseLUTを提案する。
まず、加算器を介して複数のPolyLUTサブニューロンを集約し、LUT消費量を2.0x-13.9x削減し、推論遅延を1.2x-1.6x削減するアーキテクチャ拡張を提案する。
この基礎の上に、より少ない入力を選択的に抜き出し、より効果的な入力を戦略的に再成長させることにより、ニューロン接続を最適化する非グリーディトレーニングアルゴリズムを導入する。
このトレーニング最適化は追加の領域と遅延オーバーヘッドを伴わず、ベンチマーク間で一貫した精度の向上を実現している。MNISTでは2.13%、Jet Substructure Classificationでは0.94%のアップを実現している。
関連論文リスト
- S$^2$NN: Sub-bit Spiking Neural Networks [53.08060832135342]
スパイキングニューラルネットワーク(SNN)は、マシンインテリジェンスにエネルギー効率のよいパラダイムを提供する。
最近のバイナリSNNの進歩にもかかわらず、大規模ネットワークではストレージと計算の要求が相当に大きい。
1ビット未満の重みを表すサブビットスパイキングニューラルネットワーク(S$2$NNs)を提案する。
論文 参考訳(メタデータ) (2025-09-29T04:17:44Z) - NeuraLUT-Assemble: Hardware-aware Assembling of Sub-Neural Networks for Efficient LUT Inference [2.7086888205833968]
ルックアップテーブル(LUT)を活用したNN(Efficient Neural Network)は、新興AIアプリケーションにおいて大きな可能性を示している。
既存のLUTベースの設計では、入力幅のLUTリソースの指数的スケーリングによって制限されたニューロンが要求するファンインが大きいため、精度が低下する。
我々は、これらの制限に対処する新しいフレームワークであるNeuraLUT-Assembleを紹介する。
論文 参考訳(メタデータ) (2025-04-01T09:52:38Z) - SparseLUT: Sparse Connectivity Optimization for Lookup Table-based Deep Neural Networks [0.0]
本稿では,LUTベースのディープニューラルネットワーク(DNN)に適した接続中心トレーニング技術であるSparseLUTを紹介する。
実験の結果、ベンチマーク全体で一貫した精度の改善が見られ、MNISTは最大2.13%向上した。
これはハードウェアのオーバーヘッドを伴わずに実現され、LUTベースのDNNの最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-17T05:21:54Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - PolyLUT-Add: FPGA-based LUT Inference with Wide Inputs [1.730979251211628]
この研究はPolyLUT-Addを導入し、これは精度を向上させるために$A$ PolyLUTサブニューロンを組み合わせることによってニューロンの接続性を高める技術である。
我々は,MNIST,Jet Substructure Classification,Network Intrusion Detectionベンチマークに対する実装評価を行い,同様の精度でPolyLUT-AddがLUTの2.0-13.9times$と1.2-1.6times$の遅延低減を実現していることを確認した。
論文 参考訳(メタデータ) (2024-06-07T13:00:57Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural
Network Inference [3.2296078260106174]
本稿では,LUTに基づくトポロジの学習最適化を提案する。
既存のアーキテクチャの実装では、LUT, Kあたりの入力数を手動で指定する必要がある。
本稿では,FPGA推論を対象とするニューラルネットワークにおいて,各LUTに対してKを自動的に学習することのできる,詳細なネットリスト解析手法である論理縮小手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T14:23:24Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。