Fugu-MT 論文翻訳(概要): Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness

論文の概要: Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness

arxiv url: http://arxiv.org/abs/2402.02361v1
Date: Sun, 4 Feb 2024 06:11:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 20:12:34.100539
Title: Pruner: An Efficient Cross-Platform Tensor Compiler with Dual Awareness
Title（参考訳）: pruner:デュアルアウェアネスを持つ効率的なクロスプラットフォームテンソルコンパイラ
Authors: Liang Qiao, Jun Shi, Xiaoyu Hao, Xi Fang, Minfan Zhao, Ziqi Zhu, Junshi Chen, Hong An, Bing Li, Honghui Yuan and Xinyang Wang
Abstract要約: 我々は,テンソルプログラムの最適化を階層的に向上させるハードウェア/ソフトウェア共同設計の原則に従い,$textbfPruner$を提案する。 Prunerは2つの主要なコンポーネントで構成されている。静的アナライザ(textbfPSA$)とパターン対応コストモデル(textbfPa$)である。
参考スコア（独自算出の注目度）: 8.381744079783278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tensor program optimization on Deep Learning Accelerators (DLAs) is critical for efficient model deployment. Although search-based Deep Learning Compilers (DLCs) have achieved significant performance gains compared to manual methods, they still suffer from the persistent challenges of low search efficiency and poor cross-platform adaptability. In this paper, we propose $\textbf{Pruner}$, following hardware/software co-design principles to hierarchically boost tensor program optimization. Pruner comprises two primary components: a Parameterized Static Analyzer ($\textbf{PSA}$) and a Pattern-aware Cost Model ($\textbf{PaCM}$). The former serves as a hardware-aware and formulaic performance analysis tool, guiding the pruning of the search space, while the latter enables the performance prediction of tensor programs according to the critical data-flow patterns. Furthermore, to ensure effective cross-platform adaptation, we design a Momentum Transfer Learning ($\textbf{MTL}$) strategy using a Siamese network, which establishes a bidirectional feedback mechanism to improve the robustness of the pre-trained cost model. The extensive experimental results demonstrate the effectiveness and advancement of the proposed Pruner in various tensor program tuning tasks across both online and offline scenarios, with low resource overhead. The code is available at https://github.com/qiaolian9/Pruner.
Abstract（参考訳）: Deep Learning Accelerators (DLAs) のテンソルプログラム最適化は、効率的なモデル展開に不可欠である。検索ベースのディープラーニングコンパイラ(Deep Learning Compilers, DLC)は手作業に比べて大きなパフォーマンス向上を遂げているが, 検索効率の低下とクロスプラットフォーム適応性の低下という難しさに悩まされている。本稿では,ハードウェア/ソフトウェアの共同設計原則に従って,テンソルプログラムの最適化を階層的に促進する$\textbf{Pruner}$を提案する。 Prunerは、パラメータ化静的アナライザ($\textbf{PSA}$)とパターン対応コストモデル($\textbf{PaCM}$)の2つの主要コンポーネントから構成される。前者はハードウェア対応で定式的な性能解析ツールとして機能し、検索空間のプルーニングを誘導し、後者は臨界データフローパターンに従ってテンソルプログラムのパフォーマンス予測を可能にする。さらに,効率的なクロスプラットフォーム適応を実現するため,Siameseネットワークを用いたMomentum Transfer Learning(\textbf{MTL}$)戦略を設計し,事前学習したコストモデルのロバスト性を改善するための双方向フィードバック機構を確立する。広範な実験結果から,提案するprunerは,リソースオーバーヘッドの少ないオンラインシナリオとオフラインシナリオの両方において,様々なtensorプログラムのチューニングタスクにおいて有効性と進歩を示した。コードはhttps://github.com/qiaolian9/prunerで入手できる。

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
ETS: Efficient Tree Search for Inference-Time Scaling [61.553681244572914]
テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
論文参考訳（メタデータ） (2025-02-19T09:30:38Z)
A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文参考訳（メタデータ） (2024-12-19T03:59:26Z)
Reducing Hyperparameter Tuning Costs in ML, Vision and Language Model Training Pipelines via Memoization-Awareness [19.24063761779741]
本稿では,パイプラインキャッシュシステムと連動して動作する「メモ化対応ベイズ最適化(BO)アルゴリズムEEIPUを提案する。機械学習(モデルアンサンブル)、ビジョン(進化的アーキテクチャ)、言語(T5アーキテクチャ)パイプラインに関するベンチマークでは、EEIPUと最近のBOアルゴリズムを比較した。
論文参考訳（メタデータ） (2024-11-06T07:53:04Z)
Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文参考訳（メタデータ） (2024-06-24T16:40:54Z)
Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。本研究では,探索過程を近似するカスケード把握モデルを構築した。大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文参考訳（メタデータ） (2024-06-17T02:06:47Z)
FootstepNet: an Efficient Actor-Critic Method for Fast On-line Bipedal Footstep Planning and Forecasting [0.0]
本研究では,障害物のある環境下を移動するための効率的なフットステップ計画法を提案する。また,地域目標の異なる候補に到達するのに必要なステップ数を素早く推定できる予測手法を提案する。本研究は,RoboCup 2023コンペティションにおいて,シミュレーション結果と,子供サイズのヒューマノイドロボットへの展開によるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-19T09:48:18Z)
Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling [40.535672813968375]
大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。我々は、GCGの時間コストを削減するために$ttexttProbe sample$という新しいアルゴリズムを研究している。プローブサンプリングは、他のプロンプト最適化手法や逆法を高速化することも可能である。
論文参考訳（メタデータ） (2024-03-02T16:23:44Z)
Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文参考訳（メタデータ） (2023-12-20T18:08:02Z)
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。 CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文参考訳（メタデータ） (2023-06-13T18:22:24Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
TLP: A Deep Learning-based Cost Model for Tensor Program Tuning [15.841139749937351]
テンソルプログラムのチューニングを容易にする深層学習に基づくコストモデルであるTLPを提案する。我々は、TLPがCPUワークロードで平均検索時間を9.1XX高速化できることを示した。これらのテクニックをAnsorフレームワークに組み込んで,詳細な実験を行う。
論文参考訳（メタデータ） (2022-11-07T14:11:43Z)
Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts [97.20933523766182]
プロンプトチューニングは、事前訓練モデル(PTM)を利用するためのパラメータ効率チューニング(PETuning)手法である我々は、入力層やすべての層の代わりに遅延プロンプトをPTMの中間層に挿入するLatlas Prompt Tuning()を提案する。フルデータおよび少数ショットの両方のシナリオで、フルモデルチューニングや他のPETuningメソッドと競合する性能を実現できることを示す。
論文参考訳（メタデータ） (2022-10-20T14:23:52Z)
Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。 MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文参考訳（メタデータ） (2022-10-12T07:41:04Z)
APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文参考訳（メタデータ） (2022-04-04T16:38:55Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget [0.0]
ニューラルネットワークにおけるスパーシリティの導入は、パフォーマンスをほぼ無傷に保ちながら、その複雑さを軽減する効率的な方法である。多くの場合、スパシティは3段階のパイプラインを使用して導入されます。1)モデルを収束させるためにトレーニングし、2)いくつかの基準に従ってモデルをプーンし、3)プルーニングされたモデルを微調整してパフォーマンスを回復します。本研究では,パイプラインの最初のステップを廃止し,他の2ステップを1回のプルーニングトレーニングサイクルで組み合わせることを提案する。
論文参考訳（メタデータ） (2021-07-05T15:27:07Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Ansor: Generating High-Performance Tensor Programs for Deep Learning [45.437816016043534]
ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。 Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。 Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
論文参考訳（メタデータ） (2020-06-11T19:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。