Fugu-MT 論文翻訳(概要): Automated Deep Learning Optimization via DSL-Based Source Code Transformation

論文の概要: Automated Deep Learning Optimization via DSL-Based Source Code Transformation

arxiv url: http://arxiv.org/abs/2405.03067v2
Date: Wed, 21 Aug 2024 04:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 22:25:29.082771
Title: Automated Deep Learning Optimization via DSL-Based Source Code Transformation
Title（参考訳）: DSLベースのソースコード変換によるディープラーニングの自動最適化
Authors: Ruixin Wang, Minghai Lu, Cody Hao Yu, Yi-Hsiang Lai, Tianyi Zhang,
Abstract要約: 本稿では,Adopterという,ディープラーニングによるOPTimizationの自動化手法を提案する。 DLモデルアーキテクチャを表現し、このDSLを利用してモデル変換ルールを指定する。 Adopterは、それぞれ3%と56%の精度とリコールを改善するのに役立ちます。
参考スコア（独自算出の注目度）: 7.354658720681809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As deep learning models become increasingly bigger and more complex, it is critical to improve model training and inference efficiency. Though a variety of highly optimized libraries and packages (known as DL kernels) have been developed, it is tedious and time-consuming to figure out which kernel to use, where to use, and how to use them correctly. To address this challenge, we propose an Automated Deep learning OPTimization approach called Adopter. We design a Domain-Specific Language (DSL) to represent DL model architectures and leverage this DSL to specify model transformation rules required to integrate a DL kernel into a model. Given the source code of a DL model and the transformation rules for a set of kernels, Adopter first performs inter-procedural analysis to identify and express the model architecture in our DSL. Then, Adopter performs scope analysis and sub-sequence matching to identify locations in the model architecture where the transformation rules can be applied. Finally, Adopter proposes a synthesis-based code transformation method to apply the transformation rule. We curated a benchmark with 199 models from Hugging Face and a diverse set of DL kernels. We found that, compared to a state-of-the-art automated code transformation technique, Adopter helps improve the precision and recall by 3% and 56%, respectively. An in-depth analysis of 9 models revealed that on average, Adopter improved the training speed by 22.7% while decreasing the GPU memory usage by 10.5%.
Abstract（参考訳）: ディープラーニングモデルはますます大きくなり、複雑になるにつれて、モデルのトレーニングと推論効率を改善することが重要になります。高度に最適化されたライブラリやパッケージ(DLカーネルとして知られる)が開発されているが、どのカーネルを使うか、どこで使うか、どのように正しく使うかを理解するのは面倒で時間がかかる。この課題に対処するため、我々はAdopterと呼ばれる自動深層学習OPTimizationアプローチを提案する。 DLモデルアーキテクチャを表現するためにドメイン特化言語(DSL)を設計し、このDSLを活用して、DLカーネルをモデルに統合するのに必要なモデル変換ルールを指定する。 DLモデルのソースコードとカーネルセットの変換ルールを考えると、Adopterはまず言語間解析を行い、DSLのモデルアーキテクチャを特定し、表現します。次に、Adopterはスコープ分析とサブシーケンスマッチングを行い、変換ルールを適用することができるモデルアーキテクチャ内の場所を特定する。最後に、Adopterは変換規則を適用するための合成ベースのコード変換法を提案する。我々はHugging Faceの199モデルと多種多様なDLカーネルのベンチマークをキュレートした。最先端の自動コード変換技術と比較して、Adopterは精度とリコールをそれぞれ3%と56%向上させるのに役立ちます。 9モデルの詳細な分析により、Adopterはトレーニング速度を22.7%改善し、GPUメモリ使用量を10.5%削減した。

関連論文リスト

STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。 STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文参考訳（メタデータ） (2024-11-26T18:42:42Z)
Demystifying the Communication Characteristics for Distributed Transformer Models [2.849208476795592]
本稿ではトランスモデルの通信挙動について検討する。我々はGPTに基づく言語モデルをトランスフォーマーアーキテクチャの汎用性によるケーススタディとして用いている。高いレベルでは、我々の分析により、より小さなメッセージポイントツーポイント通信を最適化する必要性が明らかになる。
論文参考訳（メタデータ） (2024-08-19T17:54:29Z)
The Case for Co-Designing Model Architectures with Hardware [13.022505733049597]
ユーザがトランスモデルのランタイムパフォーマンスを最大化するためのガイドラインのセットを提供する。効率的なモデル形状を持つモデルのスループットは、最大で39%高くなっています。
論文参考訳（メタデータ） (2024-01-25T19:50:31Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Improving generalization in large language models by learning prefix subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文参考訳（メタデータ） (2023-10-24T12:44:09Z)
Multiplicative update rules for accelerating deep learning training and increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文参考訳（メタデータ） (2023-07-14T06:44:43Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。 Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文参考訳（メタデータ） (2022-05-30T16:55:59Z)
Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文参考訳（メタデータ） (2021-06-17T02:40:18Z)
Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文参考訳（メタデータ） (2020-08-19T14:26:47Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。