Fugu-MT 論文翻訳(概要): A Multi-Level Superoptimizer for Tensor Programs

論文の概要: A Multi-Level Superoptimizer for Tensor Programs

arxiv url: http://arxiv.org/abs/2405.05751v1
Date: Thu, 9 May 2024 13:15:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 13:23:01.106067
Title: A Multi-Level Superoptimizer for Tensor Programs
Title（参考訳）: テンソルプログラムのためのマルチレベル超最適化器
Authors: Mengdi Wu, Xinhao Cheng, Oded Padon, Zhihao Jia,
Abstract要約: 我々は、テンソルプログラムのための最初のマルチレベルスーパー最適化であるMirageを紹介する。 Mirageのキーとなるアイデアは$mu$Graphsで、カーネルにおけるテンソルプログラムの統一表現、スレッドブロック、GPU計算階層のスレッドレベルである。
参考スコア（独自算出の注目度）: 4.496885358960884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Mirage, the first multi-level superoptimizer for tensor programs. A key idea in Mirage is $\mu$Graphs, a uniform representation of tensor programs at the kernel, thread block, and thread levels of the GPU compute hierarchy. $\mu$Graphs enable Mirage to discover novel optimizations that combine algebraic transformations, schedule transformations, and generation of new custom kernels. To navigate the large search space, Mirage introduces a pruning technique based on abstraction that significantly reduces the search space and provides a certain optimality guarantee. To ensure that the optimized $\mu$Graph is equivalent to the input program, Mirage introduces a probabilistic equivalence verification procedure with strong theoretical guarantees. Our evaluation shows that Mirage outperforms existing approaches by up to 3.5$\times$ even for DNNs that are widely used and heavily optimized. Mirage is publicly available at https://github.com/mirage-project/mirage.
Abstract（参考訳）: 我々は、テンソルプログラムのための最初のマルチレベルスーパー最適化であるMirageを紹介する。 Mirageのキーとなるアイデアは$\mu$Graphsである。これは、カーネル、スレッドブロック、GPU計算階層のスレッドレベルにおけるテンソルプログラムの統一表現である。 $\mu$Graphsにより、Mirageは代数変換、スケジュール変換、新しいカスタムカーネルの生成を組み合わせた新しい最適化を発見できる。大きな探索空間をナビゲートするために、Mirage氏は、探索空間を著しく削減し、一定の最適性を保証する抽象化に基づくプルーニング技術を導入した。最適化された$\mu$Graphが入力プログラムと同値であることを保証するため、Mirageは強力な理論的保証を持つ確率的同値検証手順を導入する。私たちの評価によると、Mirageは広く使われ、非常に最適化されたDNNでさえ、3.5$\times$で既存のアプローチより優れています。 Mirageはhttps://github.com/mirage-project/mirage.comで公開されている。

関連論文リスト

MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention [6.745825870346853]
そこで本研究では,モナール行列を用いた準四次的注意近似手法を提案する。 MonarchAttentionはどちらも転送可能で、追加のトレーニングなしでパフォーマンス損失を最小化し、ハードウェア効率が向上する。視覚や言語問題における多様なタスクやアーキテクチャに対するモナーキアテンションの質を実証する。
論文参考訳（メタデータ） (2025-05-24T13:44:44Z)
Graph Unfolding and Sampling for Transitory Video Summarization via Gershgorin Disc Alignment [48.137527345353625]
携帯電話からYouTubeやTikTokなどのソーシャルメディアサイトにアップロードされたユーザー生成ビデオ(UGV)は、短くて繰り返しではない。我々は、ガーシュゴリンディスクアライメント(GDA)に基づく高速グラフサンプリングにより、遷移UGVを複数のディスクに線形時間で要約する。提案アルゴリズムは,最先端の手法と比較して,映像の要約性能が向上し,複雑さが大幅に低減されていることを示す。
論文参考訳（メタデータ） (2024-08-03T20:08:02Z)
MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-21T17:59:58Z)
An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文参考訳（メタデータ） (2023-06-30T08:34:29Z)
An Efficient Stochastic Algorithm for Decentralized Nonconvex-Strongly-Concave Minimax Optimization [25.00475462213752]
Decentralized Recursive Dec. Method (DREAM) 具体的には、$mathcalO(minminappaappa3eps-3,kappa2N)$ one-order oracle (SFO)コールと$tildemathcalO(kappa2 epsilon-2)通信ラウンドが必要です。我々の数値実験は,従来の手法の優越性を検証した。
論文参考訳（メタデータ） (2022-12-05T16:09:39Z)
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality [28.245387355693545]
Masked AutoEncoder (MAE)は、エレガントな非対称エンコーダデコーダ設計により、視覚的自己超越領域のトレンドを導いた。本研究では,局所性のあるピラミッドベースのViTのMAE事前学習を実現するために,一様マスキング(UM)を提案する。
論文参考訳（メタデータ） (2022-05-20T10:16:30Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-05-10T13:07:44Z)
Provably Breaking the Quadratic Error Compounding Barrier in Imitation Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。 rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。 Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文参考訳（メタデータ） (2021-02-25T15:50:19Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。