論文の概要: OLLIE: Derivation-based Tensor Program Optimizer
- arxiv url: http://arxiv.org/abs/2208.02025v1
- Date: Tue, 2 Aug 2022 14:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:17:24.556516
- Title: OLLIE: Derivation-based Tensor Program Optimizer
- Title(参考訳): OLLIE: 派生型テンソルプログラム最適化
- Authors: Liyan Zheng, Haojie Wang, Jidong Zhai, Muyan Hu, Zixuan Ma, Tuowei
Wang, Shizhi Tang, Lei Xie, Kezhao Huang and Zhihao Jia
- Abstract要約: 導出型テンソルプログラムOLLIEを提案する。
我々は,既存のテンソル式をA100 GPUで最大2.73$times$ (1.46$times$)、V100 GPUで最大2.68$times$1$times$で上回ることができることを示す。
- 参考スコア(独自算出の注目度): 13.23204410403652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Boosting the runtime performance of deep neural networks (DNNs) is critical
due to their wide adoption in real-world tasks. Existing approaches to
optimizing the tensor algebra expression of a DNN only consider expressions
representable by a fixed set of predefined operators, missing possible
optimization opportunities between general expressions. We propose OLLIE, the
first derivation-based tensor program optimizer. OLLIE optimizes tensor
programs by leveraging transformations between general tensor algebra
expressions, enabling a significantly larger expression search space that
includes those supported by prior work as special cases. OLLIE uses a hybrid
derivation-based optimizer that effectively combines explorative and guided
derivations to quickly discover highly optimized expressions. Evaluation on
seven DNNs shows that OLLIE can outperform existing optimizers by up to
2.73$\times$ (1.46$\times$ on average) on an A100 GPU and up to 2.68$\times$
(1.51$\times$) on a V100 GPU, respectively.
- Abstract(参考訳): deep neural network(dnn)のランタイムパフォーマンスの向上は、現実世界のタスクに広く採用されているため、非常に重要である。
DNNのテンソル代数式を最適化するための既存のアプローチは、固定された定義された演算子の集合で表現できる表現のみを考慮し、一般表現間の最適化機会を欠いている。
最初の派生型テンソルプログラムであるOLLIEを提案する。
OLLIEは、一般的なテンソル代数式間の変換を活用することでテンソルプログラムを最適化し、前処理が特別なケースとしてサポートするものを含む、はるかに大きな表現検索空間を実現する。
OLLIEは、爆発的導出と誘導的導出を効果的に組み合わせ、高度に最適化された式を素早く発見するハイブリッド導出に基づく最適化器を使用している。
7つのDNNの評価によると、OLLIEは、A100 GPUで最大2.73$\times$(平均1.46$\times$)、V100 GPUで最大2.68$\times$(1.51$\times$)を上回ることができる。
関連論文リスト
- Optimal Kernel Orchestration for Tensor Programs with Korch [13.143585283794902]
カーネルオーケストレーションは、ディープニューラルネットワーク(DNN)のさまざまなオペレータで定義された計算を、現代的なハードウェアプラットフォーム上でGPUカーネルの実行にマッピングするタスクである。
本稿では,テンソルプログラムのための最適なカーネルオーケストレーション戦略を発見するプログラムであるKorchを提案する。
論文 参考訳(メタデータ) (2024-06-13T04:44:38Z) - Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。
ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。
注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T14:18:15Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。
現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-02-22T01:17:31Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - ALT: Breaking the Wall between Graph and Operator Level Optimizations
for Deep Learning Compilation [38.8918502461244]
ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。
JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-10-22T11:09:36Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - OpEvo: An Evolutionary Method for Tensor Operator Optimization [6.273446055072434]
テンソル作用素の探索空間を効率的に探索する新しい進化的手法OpEvoを提案する。
総合的な実験結果から,OpEvoは最も分散度が低く,試行回数や壁面時間も最小限に設定できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T05:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。