Fugu-MT 論文翻訳(概要): A MAC-less Neural Inference Processor Supporting Compressed, Variable Precision Weights

論文の概要: A MAC-less Neural Inference Processor Supporting Compressed, Variable Precision Weights

arxiv url: http://arxiv.org/abs/2012.06018v1
Date: Thu, 10 Dec 2020 23:13:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-15 08:01:51.714055
Title: A MAC-less Neural Inference Processor Supporting Compressed, Variable Precision Weights
Title（参考訳）: 圧縮可変精度ウェイトをサポートしたMACレスニューラルネットワークプロセッサ
Authors: Vincenzo Liguori
Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)の推論のための2つのアーキテクチャを紹介する。最初のアーキテクチャは multiply-accumulators (macs) を使用するが、ゼロウェイトをスキップすることで不要な乗算を避ける。第2のアーキテクチャは、より小さいビット層乗算器(BLMAC)でリソース集約MACを置換することにより、ビット表現のレベルでの重み間隔を利用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces two architectures for the inference of convolutional neural networks (CNNs). Both architectures exploit weight sparsity and compression to reduce computational complexity and bandwidth. The first architecture uses multiply-accumulators (MACs) but avoids unnecessary multiplications by skipping zero weights. The second architecture exploits weight sparsity at the level of their bit representation by substituting resource-intensive MACs with much smaller Bit Layer Multiply Accumulators (BLMACs). The use of BLMACs also allows variable precision weights as variable size integers and even floating points. Some details of an implementation of the second architecture are given. Weight compression with arithmetic coding is also discussed as well as bandwidth implications. Finally, some implementation results for a pathfinder design and various technologies are presented.
Abstract（参考訳）: 本稿では,畳み込みニューラルネットワーク(CNN)の2つのアーキテクチャを紹介する。どちらのアーキテクチャも計算複雑性と帯域幅を減らすために重みの幅と圧縮を利用する。最初のアーキテクチャは multiply-accumulators (macs) を使用するが、ゼロウェイトをスキップすることで不要な乗算を避ける。第2のアーキテクチャは、より小さなビット層乗算器(BLMAC)でリソース集約MACを置換することで、ビット表現のレベルでの重みの幅を利用する。 BLMACを使用すると、可変サイズの整数や浮動小数点として、可変精度の重み付けが可能である。第2のアーキテクチャの実装に関するいくつかの詳細が述べられている。演算符号化による重み圧縮や帯域幅の影響についても論じる。最後に,パスファインダー設計と各種技術の実装結果について述べる。

関連論文リスト

BiVM: Accurate Binarized Neural Network for Efficient Video Matting [56.000594826508504]
リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算制限を被る。ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。 BiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオマッティングネットワークをかなり上回っている。
論文参考訳（メタデータ） (2025-07-06T16:32:37Z)
BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook [20.89001326838199]
本稿では,新しいサブ1ビット大規模言語モデル(LLM)の量子化フレームワークであるBTC-LLMを提案する。提案手法は,(1)非可逆スケーリングと回転を最適化し,二項化重みを完全精度分布に整合させる学習可能な変換,(2)繰り返し発生するバイナリベクトルクラスタを識別するFlashおよび精度の高いバイナリコードブックである。
論文参考訳（メタデータ） (2025-05-24T03:57:19Z)
Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。 DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文参考訳（メタデータ） (2025-05-16T10:07:36Z)
BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。 BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文参考訳（メタデータ） (2025-02-01T06:34:55Z)
MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights [2.7036595757881323]
MOGNETは、リソース限定のハードウェアと互換性のあるコンパクトなモデルアーキテクチャである。類似またはより低いモデルサイズで1%まで明確なギャップを保ち、より高い精度を達成することができる。
論文参考訳（メタデータ） (2025-01-16T13:30:20Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文参考訳（メタデータ） (2024-07-12T17:37:49Z)
Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文参考訳（メタデータ） (2023-12-03T04:20:02Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文参考訳（メタデータ） (2022-11-13T18:31:45Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit Sparsity of Neural Network [18.79036546647254]
我々はSparse-Multiplication-Engine(SME)という新しいReRAMベースのディープニューラルネットワーク(DNN)アクセラレータを開発した。まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。第三に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。
論文参考訳（メタデータ） (2021-03-02T13:27:15Z)
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文参考訳（メタデータ） (2021-02-08T05:55:47Z)
MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with Co-designed Compressed Neural Networks [0.6817102408452476]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。 CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
論文参考訳（メタデータ） (2020-10-24T10:31:49Z)
Binarization Methods for Motor-Imagery Brain-Computer Interface Classification [18.722731794073756]
本稿では,実数値重みを2進数に変換する手法を提案する。 2次埋め込みの次元を調整することにより、4級MI(leq$1.27%以下)で、float16重みを持つモデルと比較してほぼ同じ精度を達成する。提案手法は,CNNの完全連結層をバイポーラランダムプロジェクションを用いたバイナリ拡張メモリに置き換える。
論文参考訳（メタデータ） (2020-10-14T12:28:18Z)
Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文参考訳（メタデータ） (2020-09-04T20:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。