Fugu-MT 論文翻訳(概要): An Open-Source Framework for Efficient Numerically-Tailored Computations

論文の概要: An Open-Source Framework for Efficient Numerically-Tailored Computations

arxiv url: http://arxiv.org/abs/2406.02579v1
Date: Wed, 29 May 2024 10:10:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-09 15:49:54.084980
Title: An Open-Source Framework for Efficient Numerically-Tailored Computations
Title（参考訳）: 効率的な数値計算のためのオープンソースフレームワーク
Authors: Louis Ledoux, Marc Casas,
Abstract要約: 本稿では,効率的な行列行列乗算を容易にするために,多機能なオープンソースフレームワークを提案する。 AI推論では、ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169、VGG11といった最先端のニューラルネットワークモデルを検討する。我々のアプローチは、すべてのケースにおけるエネルギー消費を一貫して減少させ、特にIEEE754-32の3.3倍、Bfloat16の1.4倍の3.3倍の削減を図っている。
参考スコア（独自算出の注目度）: 1.0596516362730137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a versatile open-source framework designed to facilitate efficient, numerically-tailored Matrix-Matrix Multiplications (MMMs). The framework offers two primary contributions: first, a fine-tuned, automated pipeline for arithmetic datapath generation, enabling highly customizable systolic MMM kernels; second, seamless integration of the generated kernels into user code, irrespective of the programming language employed, without necessitating modifications. The framework demonstrates a systematic enhancement in accuracy per energy cost across diverse High Performance Computing (HPC) workloads displaying a variety of numerical requirements, such as Artificial Intelligence (AI) inference and Sea Surface Height (SSH) computation. For AI inference, we consider a set of state-of-the-art neural network models, namely ResNet18, ResNet34, ResNet50, DenseNet121, DenseNet161, DenseNet169, and VGG11, in conjunction with two datasets, two computer formats, and 27 distinct intermediate arithmetic datapaths. Our approach consistently reduces energy consumption across all cases, with a notable example being the reduction by factors of $3.3\times$ for IEEE754-32 and $1.4\times$ for Bfloat16 during ImageNet inference with ResNet50. This is accomplished while maintaining accuracies of $82.3\%$ and $86\%$, comparable to those achieved with conventional Floating-Point Units (FPUs). In the context of SSH computation, our method achieves fully-reproducible results using double-precision words, surpassing the accuracy of conventional double- and quad-precision arithmetic in FPUs. Our approach enhances SSH computation accuracy by a minimum of $5\times$ and $27\times$ compared to IEEE754-64 and IEEE754-128, respectively, resulting in $5.6\times$ and $15.1\times$ improvements in accuracy per power cost.
Abstract（参考訳）: 本稿では,効率的な行列行列乗算(MMM)を容易にするために設計された多用途オープンソースフレームワークを提案する。このフレームワークは2つの主要なコントリビューションを提供している: 1つは、算術データパス生成のための微調整された自動パイプラインで、高度にカスタマイズ可能なシストリックなMMMカーネルを実現する。このフレームワークは、人工知能(AI)推論や海面高度(SSH)計算など、さまざまな数値要件を示す多様なハイパフォーマンスコンピューティング(HPC)ワークロードに対して、エネルギーコスト当たりの精度を体系的に向上させる。 AI推論では、ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169、VGG11という最先端のニューラルネットワークモデルを、2つのデータセット、2つのコンピュータフォーマット、27の異なる中間演算データパスと共に検討する。 IEEE754-32の3.3\times$とResNet50のImageNet推論中のBfloat16の1.4\times$の3.3\times$である。これは従来の浮動小数点演算器(FPU)に匹敵する8.2.3\%と8.6\%の精度を維持しながら達成される。 SSH計算の文脈では、FPUにおける従来の2倍精度演算と4倍精度演算の精度を上回る2倍精度の単語を用いて、完全再現可能な結果を得る。提案手法は, IEEE754-64 と IEEE754-128 と比較して, SSH の計算精度を最低で 5\times$ と $27\times$ で向上させ, 結果として 5.6\times$ と $115.1\times$ の計算精度の向上を実現した。

関連論文リスト

BitNet b1.58 2B4T Technical Report [118.78752947128682]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-04-16T17:51:43Z)
Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state [0.2999888908665658]
本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。 NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
論文参考訳（メタデータ） (2024-12-10T19:00:01Z)
ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。 ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文参考訳（メタデータ） (2024-03-22T07:32:21Z)
Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。有望な解決策の1つは、アナログコンピューティングを再考することである。ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文参考訳（メタデータ） (2023-11-13T08:59:01Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
Accurate, Low-latency, Efficient SAR Automatic Target Recognition on FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。 SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文参考訳（メタデータ） (2023-01-04T05:35:30Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)
Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。 40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文参考訳（メタデータ） (2021-03-11T07:10:32Z)
I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。 I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文参考訳（メタデータ） (2021-01-05T02:42:58Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
ExPAN(N)D: Exploring Posits for Efficient Artificial Neural Network Design in FPGA-based Systems [4.2612881037640085]
本稿では,ANNに対するポジット数表現方式の有効性と不動点演算の実装効率を解析し,比較する。本稿では,ANNのための高性能かつ省エネなハードウェア実装を実現するための,新しい固定点変換器Posit to Fix-pointを提案する。
論文参考訳（メタデータ） (2020-10-24T11:02:25Z)
Towards Lossless Binary Convolutional Neural Networks Using Piecewise Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文参考訳（メタデータ） (2020-08-08T13:32:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。