Fugu-MT 論文翻訳(概要): OLLIE: Derivation-based Tensor Program Optimizer

論文の概要: OLLIE: Derivation-based Tensor Program Optimizer

arxiv url: http://arxiv.org/abs/2208.02025v1
Date: Tue, 2 Aug 2022 14:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-04 14:17:24.556516
Title: OLLIE: Derivation-based Tensor Program Optimizer
Title（参考訳）: OLLIE: 派生型テンソルプログラム最適化
Authors: Liyan Zheng, Haojie Wang, Jidong Zhai, Muyan Hu, Zixuan Ma, Tuowei Wang, Shizhi Tang, Lei Xie, Kezhao Huang and Zhihao Jia
Abstract要約: 導出型テンソルプログラムOLLIEを提案する。我々は,既存のテンソル式をA100 GPUで最大2.73$times$ (1.46$times$)、V100 GPUで最大2.68$times$1$times$で上回ることができることを示す。
参考スコア（独自算出の注目度）: 13.23204410403652
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Boosting the runtime performance of deep neural networks (DNNs) is critical due to their wide adoption in real-world tasks. Existing approaches to optimizing the tensor algebra expression of a DNN only consider expressions representable by a fixed set of predefined operators, missing possible optimization opportunities between general expressions. We propose OLLIE, the first derivation-based tensor program optimizer. OLLIE optimizes tensor programs by leveraging transformations between general tensor algebra expressions, enabling a significantly larger expression search space that includes those supported by prior work as special cases. OLLIE uses a hybrid derivation-based optimizer that effectively combines explorative and guided derivations to quickly discover highly optimized expressions. Evaluation on seven DNNs shows that OLLIE can outperform existing optimizers by up to 2.73$\times$ (1.46$\times$ on average) on an A100 GPU and up to 2.68$\times$ (1.51$\times$) on a V100 GPU, respectively.
Abstract（参考訳）: deep neural network(dnn)のランタイムパフォーマンスの向上は、現実世界のタスクに広く採用されているため、非常に重要である。 DNNのテンソル代数式を最適化するための既存のアプローチは、固定された定義された演算子の集合で表現できる表現のみを考慮し、一般表現間の最適化機会を欠いている。最初の派生型テンソルプログラムであるOLLIEを提案する。 OLLIEは、一般的なテンソル代数式間の変換を活用することでテンソルプログラムを最適化し、前処理が特別なケースとしてサポートするものを含む、はるかに大きな表現検索空間を実現する。 OLLIEは、爆発的導出と誘導的導出を効果的に組み合わせ、高度に最適化された式を素早く発見するハイブリッド導出に基づく最適化器を使用している。 7つのDNNの評価によると、OLLIEは、A100 GPUで最大2.73$\times$(平均1.46$\times$)、V100 GPUで最大2.68$\times$(1.51$\times$)を上回ることができる。

関連論文リスト

Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。 L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文参考訳（メタデータ） (2025-03-14T14:48:12Z)
Optimal Kernel Orchestration for Tensor Programs with Korch [13.143585283794902]
カーネルオーケストレーションは、ディープニューラルネットワーク(DNN)のさまざまなオペレータで定義された計算を、現代的なハードウェアプラットフォーム上でGPUカーネルの実行にマッピングするタスクである。本稿では,テンソルプログラムのための最適なカーネルオーケストレーション戦略を発見するプログラムであるKorchを提案する。
論文参考訳（メタデータ） (2024-06-13T04:44:38Z)
Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。 ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文参考訳（メタデータ） (2024-03-05T14:18:15Z)
Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。 OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文参考訳（メタデータ） (2023-09-07T00:07:15Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文参考訳（メタデータ） (2023-02-22T01:17:31Z)
oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文参考訳（メタデータ） (2023-01-03T19:52:17Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
ALT: Breaking the Wall between Graph and Operator Level Optimizations for Deep Learning Compilation [38.8918502461244]
ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。 JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
論文参考訳（メタデータ） (2022-10-22T11:09:36Z)
Reducing the Variance of Gaussian Process Hyperparameter Optimization with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。基本的に無視可能なコストで、同時に分散を低減することができる。
論文参考訳（メタデータ） (2021-07-01T06:43:11Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)
OpEvo: An Evolutionary Method for Tensor Operator Optimization [6.273446055072434]
テンソル作用素の探索空間を効率的に探索する新しい進化的手法OpEvoを提案する。総合的な実験結果から,OpEvoは最も分散度が低く,試行回数や壁面時間も最小限に設定できることがわかった。
論文参考訳（メタデータ） (2020-06-10T05:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。