Fugu-MT 論文翻訳(概要): FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN Model Training

論文の概要: FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN Model Training

arxiv url: http://arxiv.org/abs/2004.13027v1
Date: Mon, 27 Apr 2020 15:51:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 06:05:08.430145
Title: FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN Model Training
Title（参考訳）: FlexSA: 効率的なDNNモデルトレーニングのための柔軟なシストリックアレーアーキテクチャ
Authors: Sangkug Lym, Mattan Erez
Abstract要約: 一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
参考スコア（独自算出の注目度）: 1.718730454558804
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Modern deep learning models have high memory and computation cost. To make them fast and memory-cost efficient, structured model pruning is commonly used. We find that pruning a model using a common training accelerator with large systolic arrays is extremely performance-inefficient. To make a systolic array efficient for pruning and training, we propose FlexSA, a flexible systolic array architecture. FlexSA dynamically reconfigures the systolic array structure and offers multiple sub-systolic operating modes, which are designed for energy- and memory bandwidth-efficient processing of tensors with different sizes and shapes. We also present a compilation heuristic for tiling matrix-multiplication-and-accumulation operations in a training workload to best utilize the resources of FlexSA. Based on our evaluation, FlexSA with the proposed compilation heuristic improves compute resource utilization of pruning and training modern CNN models by 37% compared to a conventional training accelerator with a large systolic array. FlexSA also improves on-chip data reuse by 1.7X saving 28% energy compared to naive systolic array splitting.
Abstract（参考訳）: 現代のディープラーニングモデルは、メモリと計算コストが高い。高速化とメモリコストの削減のために、構造化モデルプルーニングが一般的である。大規模シストリック配列を持つ共通のトレーニングアクセラレータを用いたモデルのpruningは、非常にパフォーマンス非効率であることが分かりました。そこで本研究では,シストリックアレーの効率を高めるために,フレキシブルなシストリックアレーアーキテクチャであるflexsaを提案する。 FlexSAはシストリックアレイ構造を動的に再構成し、複数のサブシストリック動作モードを提供する。また、FlexSAのリソースを最大限活用するために、トレーニング作業における行列乗算および累積演算のコンパイルヒューリスティックも提案する。提案したコンパイルヒューリスティックを用いたFlexSAは,従来のシストリックアレイを用いたトレーニングアクセラレータと比較して,最新のCNNモデルのプルーニングとトレーニングの計算資源利用を37%向上させる。 FlexSAはまた、1.7倍の省エネでオンチップデータの再利用を改善する。

関連論文リスト

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
ArrayFlex: A Systolic Array Architecture with Configurable Transparent Pipelining [0.0]
畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。本研究では,パイプラインを用いたシストリックアレイの設計に焦点をあてる。 ArrayFlexは、従来の固定パイプ型シストリックアレイと比較して、最先端CNNのレイテンシを平均で11%削減することを示す。
論文参考訳（メタデータ） (2022-11-22T21:56:38Z)
FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文参考訳（メタデータ） (2022-04-22T21:57:00Z)
Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval [60.457378374671656]
Tevatronは、効率、柔軟性、コードの単純さに最適化された高密度な検索ツールキットである。 Tevatronのフレキシブルな設計は、データセット、モデルアーキテクチャ、アクセラレータプラットフォームをまたいで簡単に一般化できることを示す。
論文参考訳（メタデータ） (2022-03-11T05:47:45Z)
Memory-efficient array redistribution through portable collective communication [0.4096453902709291]
MPIスタイルの集合演算のシーケンスとして配列再分配を合成するためのタイプ指向のアプローチを提案する。我々は, 合成再分配がメモリ効率が高く, 過剰なデータ転送は行わないことを正式に証明した。我々はXLA実装に対する我々のアプローチを評価し、我々のアプローチは幾何平均スピードアップが$1.22times$であり、最大スピードアップが$5.7times$であることを示した。
論文参考訳（メタデータ） (2021-12-02T09:32:07Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)
High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文参考訳（メタデータ） (2021-04-12T02:15:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。