論文の概要: '1'-bit Count-based Sorting Unit to Reduce Link Power in DNN Accelerators
- arxiv url: http://arxiv.org/abs/2601.14087v1
- Date: Tue, 20 Jan 2026 15:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.393197
- Title: '1'-bit Count-based Sorting Unit to Reduce Link Power in DNN Accelerators
- Title(参考訳): DNN加速器におけるリンク電力削減のための'1'ビットカウントベースソーティングユニット
- Authors: Ruichi Han, Yizhi Chen, Tong Lei, Jordi Altayo Gonzalez, Ahmed Hemani,
- Abstract要約: 本研究では、畳み込みニューラルネットワーク(CNN)に最適化された比較自由選別ユニットのハードウェア実装を提案する。
本設計では,データリオーダのリンク電力の利点を保ちながら,ハードウェア領域の削減を実現している。
我々の近似ソートユニットは、正確な実装の20.42%に比べて、19.50%のBT削減を維持しながら、最大35.4%の面積削減を実現している。
- 参考スコア(独自算出の注目度): 3.027712028133186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interconnect power consumption remains a bottleneck in Deep Neural Network (DNN) accelerators. While ordering data based on '1'-bit counts can mitigate this via reduced switching activity, practical hardware sorting implementations remain underexplored. This work proposes the hardware implementation of a comparison-free sorting unit optimized for Convolutional Neural Networks (CNN). By leveraging approximate computing to group population counts into coarse-grained buckets, our design achieves hardware area reductions while preserving the link power benefits of data reordering. Our approximate sorting unit achieves up to 35.4% area reduction while maintaining 19.50\% BT reduction compared to 20.42% of precise implementation.
- Abstract(参考訳): インターコネクション電力消費は、Deep Neural Network(DNN)アクセラレーターのボトルネックであり続けている。
1'ビットカウントに基づくデータの順序付けは、スイッチングアクティビティの削減によってこれを緩和するが、実用的なハードウェアソートの実装は未検討のままである。
本研究では、畳み込みニューラルネットワーク(CNN)に最適化された比較自由選別ユニットのハードウェア実装を提案する。
集団集団数に近似計算を組み込むことにより,データリオーダのリンク電力の利点を保ちながら,ハードウェア領域の削減を実現した。
我々の近似ソートユニットは、正確な実装の20.42%に比べて、19.50 % BTの削減を維持しながら、最大35.4%の面積削減を実現している。
関連論文リスト
- Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - Coding for Computation: Efficient Compression of Neural Networks for Reconfigurable Hardware [12.524633524391827]
本稿では,FPGAなどの再構成可能なハードウェア上でのNN推論に必要な計算量を削減する圧縮方式を提案する。
これは、正規化トレーニング、ウェイトシェアリング、線形計算符号化によるプルーニングを組み合わせることで達成される。
提案方式は,単純なマルチ層パーセプトロンとResNet-34のような大規模ディープNNの競合性能を実現する。
論文 参考訳(メタデータ) (2025-04-24T09:49:18Z) - Accelerating Depthwise Separable Convolutions on Ultra-Low-Power Devices [10.733902200950872]
分離可能な畳み込みブロックを構成する深さと点の異なるカーネルを融合させる方法を模索する。
我々のアプローチは、異なるデータレイアウトを組み合わせることで、メモリ転送に要する時間を最小化することを目的としている。
論文 参考訳(メタデータ) (2024-06-18T10:32:40Z) - Subtractor-Based CNN Inference Accelerator [3.663763133721262]
本稿では,サブトラクタを用いたCNN推論アクセラレータの性能向上手法を提案する。
ラウンドサイズ0.05で、32.03%の省電力化と24.59%の面積削減を実現でき、精度損失はわずか0.1%である。
論文 参考訳(メタデータ) (2023-10-02T09:15:58Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - HEAM: High-Efficiency Approximate Multiplier Optimization for Deep
Neural Networks [5.997295917769142]
我々の乗算器は、DNNにおいて最もよく再現された近似乗算器よりも最大50.24%高い精度が得られる。
正確な乗算器と比較して、乗算器は面積、消費電力、遅延をそれぞれ44.94%、47.63%、および16.78%削減する。
論文 参考訳(メタデータ) (2022-01-20T07:10:48Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。