論文の概要: Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization
- arxiv url: http://arxiv.org/abs/2303.08142v1
- Date: Tue, 14 Mar 2023 15:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-16 18:45:10.975560
- Title: Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization
- Title(参考訳): パフォーマンス埋め込み: 自動パフォーマンス最適化への類似性に基づくアプローチ
- Authors: Lukas Tr\"umper, Tal Ben-Nun, Philipp Schaad, Alexandru Calotoiu,
Torsten Hoefler
- Abstract要約: パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
- 参考スコア(独自算出の注目度): 71.69092462147292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance optimization is an increasingly challenging but often repetitive
task. While each platform has its quirks, the underlying code transformations
rely on data movement and computational characteristics that recur across
applications. This paper proposes to leverage those similarities by
constructing an embedding space for subprograms. The continuous space captures
both static and dynamic properties of loop nests via symbolic code analysis and
performance profiling, respectively. Performance embeddings enable direct
knowledge transfer of performance tuning between applications, which can result
from autotuning or tailored improvements. We demonstrate this transfer tuning
approach on case studies in deep neural networks, dense and sparse linear
algebra compositions, and numerical weather prediction stencils. Transfer
tuning reduces the search complexity by up to four orders of magnitude and
outperforms the MKL library in sparse-dense matrix multiplication. The results
exhibit clear correspondences between program characteristics and
optimizations, outperforming prior specialized state-of-the-art approaches and
generalizing beyond their capabilities.
- Abstract(参考訳): パフォーマンスの最適化はますます困難だが、反復的なタスクである。
各プラットフォームには特徴があるが、基盤となるコード変換は、アプリケーション間で再帰するデータ移動と計算特性に依存している。
本稿では,サブプログラムの埋め込み空間を構築することで,それらの類似性を活用することを提案する。
連続空間は、それぞれシンボルコード解析とパフォーマンスプロファイリングによってループネストの静的特性と動的特性をキャプチャする。
パフォーマンス埋め込みはアプリケーション間のパフォーマンスチューニングの直接的な知識転送を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
転送チューニングは検索の複雑さを最大4桁削減し、スパース・デンス行列の乗算においてmklライブラリを上回っている。
その結果、プログラム特性と最適化の明確な対応性を示し、先行した最先端のアプローチよりも優れ、その能力を超えて一般化された。
関連論文リスト
- AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning [23.59600455731982]
混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。
実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T07:18:08Z) - TIDE: Tuning-Integrated Dynamic Evolution for LLM-Based Automated Heuristic Design [7.264986493460248]
TIDEはTuning-Integrated Dynamic Evolutionフレームワークで、パラメータ最適化から構造的推論を分離するように設計されている。
9つの最適化問題に対する実験により、TIDEは最先端のチューニング方法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2026-01-29T04:00:02Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - GPT-FT: An Efficient Automated Feature Transformation Using GPT for Sequence Reconstruction and Performance Enhancement [18.888674282162032]
データ表現を最適化することで、機械学習モデルのパフォーマンスを向上させる上で、特徴変換は重要な役割を果たす。
最近の最先端のアプローチでは、離散探索を学習可能なプロセスに変換する、連続的な埋め込み最適化問題としてこの問題に対処している。
4つのステップで自動的な特徴変換を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:21:08Z) - Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation [18.670626228472877]
DIFFTは報酬誘導型生成タスクとしてフィーチャートランスフォーメーションを再定義する。
構造的かつ離散的な特徴を生成し、機能内依存関係を保持しながら、並列な機能間生成を可能にする。
予測精度とロバスト性において、最先端のベースラインを一貫して上回り、トレーニングや推論時間を大幅に低下させる。
論文 参考訳(メタデータ) (2025-05-21T06:18:42Z) - Dynamic Logistic Ensembles with Recursive Probability and Automatic Subset Splitting for Enhanced Binary Classification [2.7396014165932923]
本稿では,動的ロジスティックアンサンブルモデルを用いた二項分類手法を提案する。
我々は、データセットを複数のサブセットに自動的に分割するアルゴリズムを開発し、分類精度を高めるためにロジスティックモデルのアンサンブルを構築する。
この作業は計算効率と理論厳密さのバランスを取り、複雑な分類タスクに対して堅牢で解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-27T00:22:55Z) - OptEx: Expediting First-Order Optimization with Approximately Parallelized Iterations [12.696136981847438]
ほぼ並列化されたイテレーション (OptEx) で高速化された一階最適化を導入する。
OptExは、並列コンピューティングを活用して、その反復的ボトルネックを軽減することで、FOOの効率を高める最初のフレームワークである。
我々は、カーネル化された勾配推定の信頼性とSGDベースのOpsExの複雑さを理論的に保証する。
論文 参考訳(メタデータ) (2024-02-18T02:19:02Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix [9.629238108795013]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Object Representations as Fixed Points: Training Iterative Refinement
Algorithms with Implicit Differentiation [88.14365009076907]
反復的洗練は表現学習に有用なパラダイムである。
トレーニングの安定性とトラクタビリティを向上させる暗黙の差別化アプローチを開発する。
論文 参考訳(メタデータ) (2022-07-02T10:00:35Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Analytical Characterization and Design Space Exploration for
Optimization of CNNs [10.15406080228806]
ループタイルやループ置換を含むループレベルの最適化は、データ移動を減らすための基本的な変換です。
本稿では,マルチコアCPU上でのCNNの最適ループレベル最適化構成を求めるための解析モデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T21:36:52Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - NOVAS: Non-convex Optimization via Adaptive Stochastic Search for
End-to-End Learning and Control [22.120942106939122]
本稿では,一般のニューラルネットワーク最適化操作において,適応探索をビルディングブロックとして用いることを提案する。
我々は、合成エネルギーベースの構造化タスクにおける既存の2つの代替案に対してベンチマークを行い、最適制御アプリケーションでの使用例を示す。
論文 参考訳(メタデータ) (2020-06-22T03:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。