論文の概要: ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile
Time
- arxiv url: http://arxiv.org/abs/2305.10611v1
- Date: Wed, 17 May 2023 23:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:50:36.216743
- Title: ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile
Time
- Title(参考訳): ACRoBat: コンパイル時の動的ディープラーニングの自動バッチの最適化
- Authors: Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry
- Abstract要約: 本稿では,動的深層学習の効率的な自動処理を実現するためのフレームワークACRoBatを提案する。
ACRoBatは、自動テンソル学習のための最先端フレームワークであるDyNetよりも最大8.5倍の性能がある。
- 参考スコア(独自算出の注目度): 12.307249556836375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic control flow is an important technique often used to design
expressive and efficient deep learning computations for applications such as
text parsing, machine translation, exiting early out of deep models and so on.
However, the resulting control flow divergence makes batching, an important
performance optimization, difficult to perform manually. In this paper, we
present ACRoBat, a framework that enables efficient automatic batching for
dynamic deep learning computations by performing hybrid static+dynamic compiler
optimizations and end-to-end tensor code generation. ACRoBat performs up to
8.5X better than DyNet, a state-of-the-art framework for automatic batching, on
an Nvidia GeForce RTX 3070 GPU.
- Abstract(参考訳): 動的制御フローは、テキスト解析、機械翻訳、深層モデルの早期流出といったアプリケーションのための表現的かつ効率的なディープラーニング計算を設計するためにしばしば使用される重要な手法である。
しかし、結果として生じる制御フローのばらつきにより、バッチ化は重要なパフォーマンス最適化であり、手動での実行が難しい。
本稿では,静的+動的コンパイラ最適化とエンドツーエンドのテンソルコード生成を組み合わせることで,動的深層学習のための効率的なバッチ処理を実現するフレームワークであるacrobatを提案する。
ACRoBatはNvidia GeForce RTX 3070 GPU上で、最先端のバッチ処理フレームワークであるDyNetよりも最大8.5倍パフォーマンスが向上している。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Towards Safe Automated Refactoring of Imperative Deep Learning Programs
to Graph Execution [4.786072763033669]
より自然な、エラーの少ない命令型DLフレームワークは、実行時のパフォーマンスを犠牲にして、熱心な実行を奨励しています。
我々は、開発者が命令型DLコードをグラフとして確実に効率的に実行できるかどうかを規定する自動化アプローチについて、現在進行中の作業について紹介する。
このアプローチはPyDev Eclipseプラグインとして実装されており、WALA Ariadne分析フレームワークを使用している。
論文 参考訳(メタデータ) (2023-08-22T20:50:19Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。
既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。
RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文 参考訳(メタデータ) (2023-03-08T17:51:13Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。