論文の概要: The Case for Co-Designing Model Architectures with Hardware
- arxiv url: http://arxiv.org/abs/2401.14489v2
- Date: Tue, 30 Jan 2024 21:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:51:43.778224
- Title: The Case for Co-Designing Model Architectures with Hardware
- Title(参考訳): ハードウェアを用いたモデルアーキテクチャの共設計事例
- Authors: Quentin Anthony, Jacob Hatef, Deepak Narayanan, Stella Biderman, Stas
Bekman, Junqi Yin, Aamir Shafi, Hari Subramoni, Dhabaleswar Panda
- Abstract要約: ユーザがトランスモデルのランタイムパフォーマンスを最大化するためのガイドラインのセットを提供する。
効率的なモデル形状を持つモデルのスループットは、最大で39%高くなっています。
- 参考スコア(独自算出の注目度): 13.022505733049597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While GPUs are responsible for training the vast majority of state-of-the-art
deep learning models, the implications of their architecture are often
overlooked when designing new deep learning (DL) models. As a consequence,
modifying a DL model to be more amenable to the target hardware can
significantly improve the runtime performance of DL training and inference. In
this paper, we provide a set of guidelines for users to maximize the runtime
performance of their transformer models. These guidelines have been created by
carefully considering the impact of various model hyperparameters controlling
model shape on the efficiency of the underlying computation kernels executed on
the GPU. We find the throughput of models with efficient model shapes is up to
39\% higher while preserving accuracy compared to models with a similar number
of parameters but with unoptimized shapes.
- Abstract(参考訳): GPUは最先端のディープラーニングモデルのほとんどをトレーニングする責任があるが、新しいディープラーニング(DL)モデルを設計する場合、アーキテクチャの影響はしばしば見過ごされる。
その結果、ターゲットハードウェアに対してより快適になるようにdlモデルを変更すれば、dlトレーニングと推論のランタイムパフォーマンスが大幅に向上する。
本稿では,トランスモデルのランタイム性能を最大化するためのガイドラインを提案する。
これらのガイドラインは、GPU上で実行される計算カーネルの効率性に対するモデル形状を制御する様々なモデルハイパーパラメータの影響を慎重に考慮して作成されている。
効率の良いモデル形状を持つモデルのスループットは、類似のパラメータを持つが最適化されていないモデルに比べて精度を保ちながら最大39\%向上する。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Efficient Deep Learning Methods for Identification of Defective Casting
Products [0.0]
本稿では,事前学習型およびカスタムビルド型AIアーキテクチャを比較し,比較した。
その結果、カスタムアーキテクチャは、事前訓練済みのモバイルアーキテクチャよりも効率的であることがわかった。
モデルをより堅牢で一般化可能にするため、カスタムアーキテクチャ上で拡張実験も実施されている。
論文 参考訳(メタデータ) (2022-05-14T19:35:05Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Understanding Training Efficiency of Deep Learning Recommendation Models
at Scale [8.731263641794897]
本稿では,リコメンデーションモデルのトレーニングにGPUを使うことの難しさについて説明する。
スケールにおけるハードウェア効率に影響を与える要因と、新しいスケールアップGPUサーバ設計であるZionから学んだこと。
論文 参考訳(メタデータ) (2020-11-11T01:21:43Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。