Fugu-MT 論文翻訳(概要): Pruner: A Speculative Exploration Mechanism to Accelerate Tensor Program Tuning

論文の概要: Pruner: A Speculative Exploration Mechanism to Accelerate Tensor Program Tuning

arxiv url: http://arxiv.org/abs/2402.02361v2
Date: Sat, 29 Jun 2024 12:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 15:18:25.448080
Title: Pruner: A Speculative Exploration Mechanism to Accelerate Tensor Program Tuning
Title（参考訳）: Pruner: テンソルプログラムチューニングを高速化するための投機的探索メカニズム
Authors: Liang Qiao, Jun Shi, Xiaoyu Hao, Xi Fang, Minfan Zhao, Ziqi Zhu, Junshi Chen, Hong An, Bing Li, Honghui Yuan, Xinyang Wang, Xulong Tang,
Abstract要約: PrunerとMoA-Prunerは、ディープニューラルネットワークのプログラムチューニングを高速化するために提案されている。 Prunerは"Draft-then-Verify"パラダイムを用いて探索プロセスを高速化する投機的探索機構である。 MoA-PrunerがMomentum Online Adaptationを導入した。
参考スコア（独自算出の注目度）: 9.730351520714699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tensor program tuning is essential for the efficient deployment of deep neural networks. Search-based approaches have demonstrated scalability and effectiveness in automatically finding high-performance programs for specific hardware. However, the search process is often inefficient, taking hours or even days to discover optimal programs due to the exploration mechanisms guided by an accurate but slow learned cost model. Meanwhile, the learned cost model trained on one platform cannot seamlessly adapt online to another, which we call cross-platform online unawareness. In this work, we propose Pruner and MoA-Pruner. Pruner is a speculative exploration mechanism that accelerates the search process using a "Draft-then-Verify" paradigm. Instead of applying the complex learned cost model to all explored candidates, Pruner drafts small-scale speculative candidates by introducing a naive symbol analyzer (draft model), then identifies the best candidates by the learned cost model. MoA-Pruner introduces Momentum online Adaptation to address the cross-platform online unawareness. We incorporate these techniques into the Ansor and conduct extensive experiments on three GPU-based platforms. Results show that in online cost model tuning scenarios, Pruner and MoA-Pruner can achieve an average speedup of $2.6 \times$ and $4.82 \times$ compared to Ansor. In offline tuning scenarios, Pruner can achieve an average speedup of $4.75 \times$ and $4.05\times$ compared to TenSet and TLP, respectively. The code is available at https://github.com/qiaolian9/Pruner.
Abstract（参考訳）: 深層ニューラルネットワークの効率的な展開には,テンソルプログラムチューニングが不可欠である。検索ベースのアプローチは、特定のハードウェアの高性能プログラムを自動的に見つけるためのスケーラビリティと有効性を示している。しかし、探索過程はしばしば非効率であり、正確な学習コストモデルによって導かれる探索機構により、最適なプログラムを見つけるのに数時間や数日を要した。一方、あるプラットフォームでトレーニングされた学習コストモデルは、他のプラットフォームにシームレスに適応することができません。本研究では,PrunerとMoA-Prunerを提案する。 Prunerは"Draft-then-Verify"パラダイムを用いて探索プロセスを高速化する投機的探索機構である。複雑な学習コストモデルを適用する代わりに、Pruner氏は、ナイーブシンボルアナライザ(ドラフトモデル)を導入して、小規模の投機的候補をドラフトし、学習コストモデルによって最適な候補を特定する。 MoA-PrunerがMomentum Online Adaptationを導入した。これらのテクニックをAnsorに組み込んで、3つのGPUベースのプラットフォームで広範な実験を行う。その結果、オンラインのコストモデルチューニングシナリオでは、Pruner と MoA-Pruner は平均速度が Ansor よりも2.6 \times$ と4.82 \times$ を達成できることがわかった。オフラインチューニングのシナリオでは、Pruner は TenSet と TLP と比較して平均 4.75 \times$ と 4.05\times$ を達成できる。コードはhttps://github.com/qiaolian9/Pruner.comで公開されている。

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
ETS: Efficient Tree Search for Inference-Time Scaling [61.553681244572914]
テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
論文参考訳（メタデータ） (2025-02-19T09:30:38Z)
A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文参考訳（メタデータ） (2024-12-19T03:59:26Z)
Reducing Hyperparameter Tuning Costs in ML, Vision and Language Model Training Pipelines via Memoization-Awareness [19.24063761779741]
本稿では,パイプラインキャッシュシステムと連動して動作する「メモ化対応ベイズ最適化(BO)アルゴリズムEEIPUを提案する。機械学習(モデルアンサンブル)、ビジョン(進化的アーキテクチャ)、言語(T5アーキテクチャ)パイプラインに関するベンチマークでは、EEIPUと最近のBOアルゴリズムを比較した。
論文参考訳（メタデータ） (2024-11-06T07:53:04Z)
Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文参考訳（メタデータ） (2024-06-24T16:40:54Z)
Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。本研究では,探索過程を近似するカスケード把握モデルを構築した。大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文参考訳（メタデータ） (2024-06-17T02:06:47Z)
FootstepNet: an Efficient Actor-Critic Method for Fast On-line Bipedal Footstep Planning and Forecasting [0.0]
本研究では,障害物のある環境下を移動するための効率的なフットステップ計画法を提案する。また,地域目標の異なる候補に到達するのに必要なステップ数を素早く推定できる予測手法を提案する。本研究は,RoboCup 2023コンペティションにおいて,シミュレーション結果と,子供サイズのヒューマノイドロボットへの展開によるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-19T09:48:18Z)
Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling [40.535672813968375]
大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。我々は、GCGの時間コストを削減するために$ttexttProbe sample$という新しいアルゴリズムを研究している。プローブサンプリングは、他のプロンプト最適化手法や逆法を高速化することも可能である。
論文参考訳（メタデータ） (2024-03-02T16:23:44Z)
Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文参考訳（メタデータ） (2023-12-20T18:08:02Z)
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。 CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文参考訳（メタデータ） (2023-06-13T18:22:24Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
TLP: A Deep Learning-based Cost Model for Tensor Program Tuning [15.841139749937351]
テンソルプログラムのチューニングを容易にする深層学習に基づくコストモデルであるTLPを提案する。我々は、TLPがCPUワークロードで平均検索時間を9.1XX高速化できることを示した。これらのテクニックをAnsorフレームワークに組み込んで,詳細な実験を行う。
論文参考訳（メタデータ） (2022-11-07T14:11:43Z)
Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts [97.20933523766182]
プロンプトチューニングは、事前訓練モデル(PTM)を利用するためのパラメータ効率チューニング(PETuning)手法である我々は、入力層やすべての層の代わりに遅延プロンプトをPTMの中間層に挿入するLatlas Prompt Tuning()を提案する。フルデータおよび少数ショットの両方のシナリオで、フルモデルチューニングや他のPETuningメソッドと競合する性能を実現できることを示す。
論文参考訳（メタデータ） (2022-10-20T14:23:52Z)
Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。 MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文参考訳（メタデータ） (2022-10-12T07:41:04Z)
APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文参考訳（メタデータ） (2022-04-04T16:38:55Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget [0.0]
ニューラルネットワークにおけるスパーシリティの導入は、パフォーマンスをほぼ無傷に保ちながら、その複雑さを軽減する効率的な方法である。多くの場合、スパシティは3段階のパイプラインを使用して導入されます。1)モデルを収束させるためにトレーニングし、2)いくつかの基準に従ってモデルをプーンし、3)プルーニングされたモデルを微調整してパフォーマンスを回復します。本研究では,パイプラインの最初のステップを廃止し,他の2ステップを1回のプルーニングトレーニングサイクルで組み合わせることを提案する。
論文参考訳（メタデータ） (2021-07-05T15:27:07Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Ansor: Generating High-Performance Tensor Programs for Deep Learning [45.437816016043534]
ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。 Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。 Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
論文参考訳（メタデータ） (2020-06-11T19:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。