論文の概要: OpEvo: An Evolutionary Method for Tensor Operator Optimization
- arxiv url: http://arxiv.org/abs/2006.05664v2
- Date: Mon, 21 Dec 2020 08:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:04:32.920855
- Title: OpEvo: An Evolutionary Method for Tensor Operator Optimization
- Title(参考訳): OpEvo: テンソル演算子の最適化のための進化的手法
- Authors: Xiaotian Gao, Cui Wei, Lintao Zhang and Mao Yang
- Abstract要約: テンソル作用素の探索空間を効率的に探索する新しい進化的手法OpEvoを提案する。
総合的な実験結果から,OpEvoは最も分散度が低く,試行回数や壁面時間も最小限に設定できることがわかった。
- 参考スコア(独自算出の注目度): 6.273446055072434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training and inference efficiency of deep neural networks highly rely on the
performance of tensor operators on hardware platforms. Manually optimizing
tensor operators has limitations in terms of supporting new operators or
hardware platforms. Therefore, automatically optimizing device code
configurations of tensor operators is getting increasingly attractive. However,
current methods for tensor operator optimization usually suffer from poor
sample-efficiency due to the combinatorial search space. In this work, we
propose a novel evolutionary method, OpEvo, which efficiently explores the
search spaces of tensor operators by introducing a topology-aware mutation
operation based on q-random walk to leverage the topological structures over
the search spaces. Our comprehensive experiment results show that compared with
state-of-the-art (SOTA) methods OpEvo can find the best configuration with the
lowest variance and least efforts in the number of trials and wall-clock time.
All code of this work is available online.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングと推論効率は、ハードウェアプラットフォーム上のテンソル演算子の性能に大きく依存している。
手動でのテンソル演算子の最適化には、新しいオペレータやハードウェアプラットフォームのサポートに関する制限がある。
したがって、テンソル演算子のデバイスコード設定の自動最適化がますます魅力的になっている。
しかし、現在のテンソル演算子最適化の方法は、通常、組合せ探索空間によるサンプル効率の低下に苦しむ。
そこで本研究では,q-random walkに基づくトポロジ対応突然変異操作を導入し,探索空間上のトポロジ的構造を活用することにより,テンソル作用素の探索空間を効率的に探索する新しい進化的手法OpEvoを提案する。
我々の総合的な実験結果から,OpEvoは最先端(SOTA)手法と比較して,最も分散度が低く,試験時間や壁面時計時間も最小限に設定できることがわかった。
この作業のすべてのコードはオンラインで入手できる。
関連論文リスト
- Neural Operators with Localized Integral and Differential Kernels [81.66974615188359]
本稿では,2つのフレームワークで局所的な特徴をキャプチャできる演算子学習の原理的アプローチを提案する。
我々はCNNのカーネル値の適切なスケーリングの下で微分演算子を得ることを示す。
局所積分演算子を得るには、離散連続的畳み込みに基づくカーネルの適切な基底表現を利用する。
論文 参考訳(メタデータ) (2024-02-26T18:59:31Z) - Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled
with Transformers [69.70169378788411]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - On Equivalent Optimization of Machine Learning Methods [1.9573380763700712]
学習速度,バッチサイズ,層幅,データセット,アクティベーション関数の選択が,トレーニング中のネットワークパラメータの等価あるいは等価な進化につながる場合の一般的な特徴を示す。
その結果, バッチサイズ比, 層幅, データセットの性質(手書きと合成) およびアクティベーション関数が共役性に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - OLLIE: Derivation-based Tensor Program Optimizer [13.23204410403652]
導出型テンソルプログラムOLLIEを提案する。
我々は,既存のテンソル式をA100 GPUで最大2.73$times$ (1.46$times$)、V100 GPUで最大2.68$times$1$times$で上回ることができることを示す。
論文 参考訳(メタデータ) (2022-08-02T14:38:58Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z) - Adaptive Learning of Tensor Network Structures [6.407946291544721]
我々はTN形式を利用して汎用的で効率的な適応アルゴリズムを開発し、データからTNの構造とパラメータを学習する。
本アルゴリズムは,任意の微分対象関数を効果的に最適化する少数のパラメータでTN構造を適応的に同定することができる。
論文 参考訳(メタデータ) (2020-08-12T16:41:56Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。