Fugu-MT 論文翻訳(概要): FamilySeer: Towards Optimized Tensor Codes by Exploiting Computation Subgraph Similarity

論文の概要: FamilySeer: Towards Optimized Tensor Codes by Exploiting Computation Subgraph Similarity

arxiv url: http://arxiv.org/abs/2201.00194v1
Date: Sat, 1 Jan 2022 14:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-04 15:56:14.807464
Title: FamilySeer: Towards Optimized Tensor Codes by Exploiting Computation Subgraph Similarity
Title（参考訳）: familyseer: 計算サブグラフの類似性を活用した最適化テンソル符号の実現
Authors: Shanjun Zhang, Mingzhen Li, Hailong Yang, Yi Liu, Zhongzhi Luan, Depei Qian
Abstract要約: DLコンパイラのための自動チューニングフレームワークであるFamilySeerを提案する。 FamilySeerは類似性を活用し、サブグラフ間の差異はそれらをサブグラフファミリーに分類することができる。実験の結果、FamilySeerは最先端の自動チューニングフレームワークよりも、同じコードパフォーマンスでモデルコードを生成することができることがわかった。
参考スコア（独自算出の注目度）: 10.965344844100306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying various deep learning (DL) models efficiently has boosted the research on DL compilers. The difficulty of generating optimized tensor codes drives DL compiler to ask for the auto-tuning approaches, and the increasing demands require increasing auto-tuning efficiency and quality. Currently, the DL compilers partition the input DL models into several subgraphs and leverage the auto-tuning to find the optimal tensor codes of these subgraphs. However, existing auto-tuning approaches usually regard subgraphs as individual ones and overlook the similarities across them, and thus fail to exploit better tensor codes under limited time budgets. We propose FamilySeer, an auto-tuning framework for DL compilers that can generate better tensor codes even with limited time budgets. FamilySeer exploits the similarities and differences among subgraphs can organize them into subgraph families, where the tuning of one subgraph can also improve other subgraphs within the same family. The cost model of each family gets more purified training samples generated by the family and becomes more accurate so that the costly measurements on real hardware can be replaced with the lightweight estimation through cost model. Our experiments show that FamilySeer can generate model codes with the same code performance more efficiently than state-of-the-art auto-tuning frameworks.
Abstract（参考訳）: 様々なディープラーニング(DL)モデルを効率的にデプロイすることで、DLコンパイラの研究が促進された。最適化されたテンソルコードを生成するのが難しいため、dlコンパイラは自動チューニングのアプローチを要求でき、要求の増加は自動チューニングの効率と品質の向上を必要とする。現在、DLコンパイラは入力されたDLモデルを複数のサブグラフに分割し、オートチューニングを利用してこれらのサブグラフの最適なテンソルコードを見つける。しかし、既存の自動チューニングアプローチでは、サブグラフを個別のものとみなし、それらの間の類似性を見落としているため、限られた時間予算でより良いテンソル符号を活用できない。本研究では,DLコンパイラの自動チューニングフレームワークであるFamilySeerを提案する。 familyseerはサブグラフ間の類似性と相違を利用してサブグラフをサブグラフファミリーに分類し、1つのサブグラフのチューニングによって同じファミリー内の他のサブグラフも改善できる。各家族のコストモデルは、家族によって生成されたより浄化されたトレーニングサンプルを取得し、実際のハードウェア上のコスト測定をコストモデルによる軽量な推定に置き換えられるように、より正確になる。実験によると、familyseerは最先端の自動チューニングフレームワークよりも、同じコードパフォーマンスのモデルコードを生成することができる。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Scalable APT Malware Classification via Parallel Feature Extraction and GPU-Accelerated Learning [0.3277163122167433]
本稿では、悪意のある実行可能ファイルを既知のAPT(Persistent Advanced Threat)グループにマッピングするためのフレームワークを提案する。この分析の主な特徴は、オプコードとしても知られる実行可能ファイルに存在するアセンブリレベルの命令である。従来のディープラーニングモデルは、マルウェアサンプルを分類できるモデルを作成するために適用される。
論文参考訳（メタデータ） (2025-04-22T00:05:05Z)
Speculative Automated Refactoring of Imperative Deep Learning Programs to Graph Execution [4.461099699060121]
成長を続けるデータセット、特にディープラーニング(DL)システムのサポートは不可欠である。 DLフレームワークは伝統的に遅延実行スタイルのDLコードを採用してきた -- シンボリックでグラフベースのDeep Neural Network(DNN)をサポートする。本稿では,命令型DL関数をグラフとして効果的かつ効率的に実行できるかどうかを開発者が判断するのを支援する自動手法を提案する。
論文参考訳（メタデータ） (2025-04-07T18:48:43Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Towards Safe Automated Refactoring of Imperative Deep Learning Programs to Graph Execution [4.786072763033669]
より自然な、エラーの少ない命令型DLフレームワークは、実行時のパフォーマンスを犠牲にして、熱心な実行を奨励しています。我々は、開発者が命令型DLコードをグラフとして確実に効率的に実行できるかどうかを規定する自動化アプローチについて、現在進行中の作業について紹介する。このアプローチはPyDev Eclipseプラグインとして実装されており、WALA Ariadne分析フレームワークを使用している。
論文参考訳（メタデータ） (2023-08-22T20:50:19Z)
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。 CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文参考訳（メタデータ） (2023-06-13T18:22:24Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
AGO: Boosting Mobile AI Inference Performance by Removing Constraints on Graph Optimization [6.4284258345779435]
AGOは、ディープモデルの推論性能を高めるために任意の構造を持つグラフ最適化のためのフレームワークである。本稿では,複数の複雑な演算子を縫合し,より高性能な演算子融合を提案する。本研究では,最先端のディープコンパイラと比較して,推論性能を最大3.3倍向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-02T07:16:49Z)
Automatic Tuning of Tensorflow's CPU Backend using Gradient-Free Optimization Algorithms [0.6543507682026964]
Deep Learning (DL) アプリケーションは、ジーンやPyTorchといったDLライブラリやフレームワークを使って構築されている。これらのフレームワークは複雑なパラメータを持ち、優れたトレーニングを得るために調整する。そこで,本論文では,トレーニングと推論性能を改善するために,DLフレームワークのパラメータをチューニングする問題をブラックボックス問題として扱う。
論文参考訳（メタデータ） (2021-09-13T19:10:23Z)
A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文参考訳（メタデータ） (2020-08-03T17:24:52Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文参考訳（メタデータ） (2020-02-07T17:27:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。