論文の概要: Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness
- arxiv url: http://arxiv.org/abs/2402.02361v1
- Date: Sun, 4 Feb 2024 06:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:12:34.100539
- Title: Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness
- Title(参考訳): pruner:デュアルアウェアネスを持つ効率的なクロスプラットフォームテンソルコンパイラ
- Authors: Liang Qiao, Jun Shi, Xiaoyu Hao, Xi Fang, Minfan Zhao, Ziqi Zhu,
Junshi Chen, Hong An, Bing Li, Honghui Yuan and Xinyang Wang
- Abstract要約: 我々は,テンソルプログラムの最適化を階層的に向上させるハードウェア/ソフトウェア共同設計の原則に従い,$textbfPruner$を提案する。
Prunerは2つの主要なコンポーネントで構成されている。静的アナライザ(textbfPSA$)とパターン対応コストモデル(textbfPa$)である。
- 参考スコア(独自算出の注目度): 8.381744079783278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor program optimization on Deep Learning Accelerators (DLAs) is critical
for efficient model deployment. Although search-based Deep Learning Compilers
(DLCs) have achieved significant performance gains compared to manual methods,
they still suffer from the persistent challenges of low search efficiency and
poor cross-platform adaptability. In this paper, we propose $\textbf{Pruner}$,
following hardware/software co-design principles to hierarchically boost tensor
program optimization. Pruner comprises two primary components: a Parameterized
Static Analyzer ($\textbf{PSA}$) and a Pattern-aware Cost Model
($\textbf{PaCM}$). The former serves as a hardware-aware and formulaic
performance analysis tool, guiding the pruning of the search space, while the
latter enables the performance prediction of tensor programs according to the
critical data-flow patterns. Furthermore, to ensure effective cross-platform
adaptation, we design a Momentum Transfer Learning ($\textbf{MTL}$) strategy
using a Siamese network, which establishes a bidirectional feedback mechanism
to improve the robustness of the pre-trained cost model. The extensive
experimental results demonstrate the effectiveness and advancement of the
proposed Pruner in various tensor program tuning tasks across both online and
offline scenarios, with low resource overhead. The code is available at
https://github.com/qiaolian9/Pruner.
- Abstract(参考訳): Deep Learning Accelerators (DLAs) のテンソルプログラム最適化は、効率的なモデル展開に不可欠である。
検索ベースのディープラーニングコンパイラ(Deep Learning Compilers, DLC)は手作業に比べて大きなパフォーマンス向上を遂げているが, 検索効率の低下とクロスプラットフォーム適応性の低下という難しさに悩まされている。
本稿では,ハードウェア/ソフトウェアの共同設計原則に従って,テンソルプログラムの最適化を階層的に促進する$\textbf{Pruner}$を提案する。
Prunerは、パラメータ化静的アナライザ($\textbf{PSA}$)とパターン対応コストモデル($\textbf{PaCM}$)の2つの主要コンポーネントから構成される。
前者はハードウェア対応で定式的な性能解析ツールとして機能し、検索空間のプルーニングを誘導し、後者は臨界データフローパターンに従ってテンソルプログラムのパフォーマンス予測を可能にする。
さらに,効率的なクロスプラットフォーム適応を実現するため,Siameseネットワークを用いたMomentum Transfer Learning(\textbf{MTL}$)戦略を設計し,事前学習したコストモデルのロバスト性を改善するための双方向フィードバック機構を確立する。
広範な実験結果から,提案するprunerは,リソースオーバーヘッドの少ないオンラインシナリオとオフラインシナリオの両方において,様々なtensorプログラムのチューニングタスクにおいて有効性と進歩を示した。
コードはhttps://github.com/qiaolian9/prunerで入手できる。
関連論文リスト
- ETS: Efficient Tree Search for Inference-Time Scaling [61.553681244572914]
テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。
木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。
本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
論文 参考訳(メタデータ) (2025-02-19T09:30:38Z) - A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。
我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文 参考訳(メタデータ) (2024-12-19T03:59:26Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。
本研究では,探索過程を近似するカスケード把握モデルを構築した。
大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:06:47Z) - FootstepNet: an Efficient Actor-Critic Method for Fast On-line Bipedal Footstep Planning and Forecasting [0.0]
本研究では,障害物のある環境下を移動するための効率的なフットステップ計画法を提案する。
また,地域目標の異なる候補に到達するのに必要なステップ数を素早く推定できる予測手法を提案する。
本研究は,RoboCup 2023コンペティションにおいて,シミュレーション結果と,子供サイズのヒューマノイドロボットへの展開によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-19T09:48:18Z) - Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - Tune As You Scale: Hyperparameter Optimization For Compute Efficient
Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。
CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。
その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文 参考訳(メタデータ) (2023-06-13T18:22:24Z) - TLP: A Deep Learning-based Cost Model for Tensor Program Tuning [15.841139749937351]
テンソルプログラムのチューニングを容易にする深層学習に基づくコストモデルであるTLPを提案する。
我々は、TLPがCPUワークロードで平均検索時間を9.1XX高速化できることを示した。
これらのテクニックをAnsorフレームワークに組み込んで,詳細な実験を行う。
論文 参考訳(メタデータ) (2022-11-07T14:11:43Z) - APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-04-04T16:38:55Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Ansor: Generating High-Performance Tensor Programs for Deep Learning [45.437816016043534]
ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。
Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。
Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
論文 参考訳(メタデータ) (2020-06-11T19:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。