Fugu-MT 論文翻訳(概要): LookupFFN: Making Transformers Compute-lite for CPU inference

論文の概要: LookupFFN: Making Transformers Compute-lite for CPU inference

arxiv url: http://arxiv.org/abs/2403.07221v1
Date: Tue, 12 Mar 2024 00:26:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 23:25:36.154315
Title: LookupFFN: Making Transformers Compute-lite for CPU inference
Title（参考訳）: LookupFFN: CPU推論のためのトランスフォーマーのCompute-liteを作る
Authors: Zhanpeng Zeng, Michael Davies, Pranav Pulijala, Karthikeyan Sankaralingam, Vikas Singh
Abstract要約: GPUクラスタは現在、大規模なディープニューラルネットワーク(DNN)モデルをトレーニングするための事実上の選択肢です。ワークフローの容易さ、セキュリティ、コストなど、いくつかの理由から、CPUが業界の多くの分野において、定期的な使用における推論に有効かどうかの調査が進められている。本稿では,GEMMをベースとしたFeed Forward Networks (FFNs) という,現代的なアーキテクチャにおけるワークホースであるモジュールについて検討し,計算的(FLOP-)な表現の程度を評価する。
参考スコア（独自算出の注目度）: 23.61144705380663
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While GPU clusters are the de facto choice for training large deep neural network (DNN) models today, several reasons including ease of workflow, security and cost have led to efforts investigating whether CPUs may be viable for inference in routine use in many sectors of the industry. But the imbalance between the compute capabilities of GPUs and CPUs is huge. Motivated by these considerations, we study a module which is a workhorse within modern DNN architectures, GEMM based Feed Forward Networks (FFNs), and assess the extent to which it can be made compute- (or FLOP-) lite. Specifically, we propose an alternative formulation (we call it LookupFFN) to GEMM based FFNs inspired by the recent studies of using Locality Sensitive Hashing (LSH) to approximate FFNs. Our formulation recasts most essential operations as a memory look-up, leveraging the trade-off between the two resources on any platform: compute and memory (since CPUs offer it in abundance). For RoBERTa language model pretraining, our formulation achieves similar performance compared to GEMM based FFNs, while dramatically reducing the required FLOP. Our development is complemented with a detailed hardware profiling of strategies that will maximize efficiency -- not just on contemporary hardware but on products that will be offered in the near/medium term future. Code is avaiable at \url{https://github.com/mlpen/LookupFFN}.
Abstract（参考訳）: 現在、GPUクラスタは大規模なディープニューラルネットワーク(DNN)モデルをトレーニングするための事実上の選択肢であるが、ワークフローの容易性、セキュリティ、コストなど、いくつかの理由により、CPUが業界の多くのセクターで日常的な使用における推論に有効かどうかを調査している。しかし、GPUとCPUの計算能力の不均衡は大きい。これらの考察により、GEMMベースのFeed Forward Networks (FFNs) という、現代のDNNアーキテクチャにおけるワークホースであるモジュールについて検討し、計算(FLOP-)の合理化の程度を評価する。具体的には、局所感性ハッシュ(LSH)を用いてFFNを近似する最近の研究から着想を得たGEMMベースのFFNに対する別の定式化(LookupFFNと呼ぶ)を提案する。私たちの定式化では、最も重要な操作をメモリのルックアップとして再キャストし、計算とメモリの2つのリソース間のトレードオフを活用しています。 RoBERTa言語モデルの事前学習では、GEMMベースのFFNと同じような性能を実現し、必要なFLOPを大幅に削減する。私たちの開発は、現在のハードウェアだけでなく、近い将来に提供される製品上で、効率を最大化する戦略の詳細なハードウェアプロファイリングで補完されています。コードは \url{https://github.com/mlpen/LookupFFN} で利用できる。

関連論文リスト

Omniwise: Predicting GPU Kernels Performance with LLMs [0.06666419797034795]
Omniwiseは、GPUカーネルのパフォーマンス予測に大規模言語モデル(LLM)を適用する、エンド・ツー・エンドの自己教師型微調整パイプラインである。メモリ帯域幅、キャッシュヒット率、GFLOP、演算強度などの重要なパフォーマンス指標を、コード実行やプロファイリングツールを必要とせずに、カーネルコードから直接予測することができる。提案手法は,AMD MI250およびMI300Xアーキテクチャ上で実行されるGPUカーネル上での相対誤差の10%以内の予測を90%以上達成する。
論文参考訳（メタデータ） (2025-06-25T23:36:44Z)
Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文参考訳（メタデータ） (2025-03-07T08:33:28Z)
Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks [4.407841002228536]
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。また、各CNN層における計算を複数のチャンクに分割する新しい分割アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-29T09:50:21Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文参考訳（メタデータ） (2023-06-08T13:11:20Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Receptive Field-based Segmentation for Distributed CNN Inference Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文参考訳（メタデータ） (2022-07-22T18:38:11Z)
Real-time Hyper-Dimensional Reconfiguration at the Edge using Hardware Accelerators [12.599871451119538]
HyDRATEは、ディープニューラルネット(DNN)と超次元(HD)コンピューティングアクセラレータを組み合わせることで、エッジでリアルタイムな再構成を行うことができる。本稿では,アルゴリズム,訓練された量子化モデル生成,および乗算累積のない特徴抽出器の性能について述べる。降下勾配のバックプロパゲーションを伴わないフィードフォワードHD分類器のみをリトレーニングすることで、フィールドにおける再構成性を実現する。
論文参考訳（メタデータ） (2022-06-10T14:08:41Z)
Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文参考訳（メタデータ） (2022-01-18T11:16:59Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
StreamBrain: An HPC Framework for Brain-like Neural Networks on CPUs, GPUs and FPGAs [0.0]
StreamBrainは、BCPNNに基づくニューラルネットワークを、高性能コンピューティングシステムに実践的にデプロイすることを可能にするフレームワークである。 StreamBrainがよく知られたMLベンチマークデータセットMNISTを数秒でトレーニングできることを実証的に実証した。我々は,STL-10 サイズネットワーク上で BCPNN を初めて実演した。
論文参考訳（メタデータ） (2021-06-09T20:28:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。