論文の概要: ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile
Time
- arxiv url: http://arxiv.org/abs/2305.10611v1
- Date: Wed, 17 May 2023 23:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:50:36.216743
- Title: ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile
Time
- Title(参考訳): ACRoBat: コンパイル時の動的ディープラーニングの自動バッチの最適化
- Authors: Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry
- Abstract要約: 本稿では,動的深層学習の効率的な自動処理を実現するためのフレームワークACRoBatを提案する。
ACRoBatは、自動テンソル学習のための最先端フレームワークであるDyNetよりも最大8.5倍の性能がある。
- 参考スコア(独自算出の注目度): 12.307249556836375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic control flow is an important technique often used to design
expressive and efficient deep learning computations for applications such as
text parsing, machine translation, exiting early out of deep models and so on.
However, the resulting control flow divergence makes batching, an important
performance optimization, difficult to perform manually. In this paper, we
present ACRoBat, a framework that enables efficient automatic batching for
dynamic deep learning computations by performing hybrid static+dynamic compiler
optimizations and end-to-end tensor code generation. ACRoBat performs up to
8.5X better than DyNet, a state-of-the-art framework for automatic batching, on
an Nvidia GeForce RTX 3070 GPU.
- Abstract(参考訳): 動的制御フローは、テキスト解析、機械翻訳、深層モデルの早期流出といったアプリケーションのための表現的かつ効率的なディープラーニング計算を設計するためにしばしば使用される重要な手法である。
しかし、結果として生じる制御フローのばらつきにより、バッチ化は重要なパフォーマンス最適化であり、手動での実行が難しい。
本稿では,静的+動的コンパイラ最適化とエンドツーエンドのテンソルコード生成を組み合わせることで,動的深層学習のための効率的なバッチ処理を実現するフレームワークであるacrobatを提案する。
ACRoBatはNvidia GeForce RTX 3070 GPU上で、最先端のバッチ処理フレームワークであるDyNetよりも最大8.5倍パフォーマンスが向上している。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。
既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。
RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文 参考訳(メタデータ) (2023-03-08T17:51:13Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Dynamic GPU Energy Optimization for Machine Learning Training Workloads [9.156075372403421]
GPOEOは、機械学習トレーニングワークロードのための、オンラインGPUエネルギ最適化フレームワークである。
オンライン計測、多目的予測モデリング、探索最適化に新しい手法を採用している。
NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。
論文 参考訳(メタデータ) (2022-01-05T16:25:48Z) - Automatic Tuning of Tensorflow's CPU Backend using Gradient-Free
Optimization Algorithms [0.6543507682026964]
Deep Learning (DL) アプリケーションは、ジーンやPyTorchといったDLライブラリやフレームワークを使って構築されている。
これらのフレームワークは複雑なパラメータを持ち、優れたトレーニングを得るために調整する。
そこで,本論文では,トレーニングと推論性能を改善するために,DLフレームワークのパラメータをチューニングする問題をブラックボックス問題として扱う。
論文 参考訳(メタデータ) (2021-09-13T19:10:23Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。