Fugu-MT 論文翻訳(概要): Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels

論文の概要: Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels

arxiv url: http://arxiv.org/abs/2604.14825v1
Date: Thu, 16 Apr 2026 09:55:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.831883
Title: Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels
Title（参考訳）: Nautilus: 効率的なGPUカーネルのための自動スケジュールテンソルコンパイラ
Authors: Yifan Zhao, Yuchen Yang, Matei Budiu, Sasa Misailovic,
Abstract要約: Nautilusはテンソル演算子の高レベル代数仕様を効率的なタイル付きGPUカーネルにコンパイルする。ナッソーの連続した下降設計により、ハイレベルな最適化、式書き換え、タイル最適化を単一のエンドツーエンドシステムで共同で適用することができる。ナッソーの自動スケジューリングは、高レベル最適化における複雑な相互作用とトレードオフをキャプチャする。
参考スコア（独自算出の注目度）: 12.78849707639185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Nautilus, a novel tensor compiler that moves toward fully automated math-to-kernel optimization. Nautilus compiles a high-level algebraic specification of tensor operators into efficient tiled GPU kernels. Nautilus's successive lowering design allows high-level optimizations, expression rewrites, and tile optimizations to be jointly applied in a single end-to-end system. Nautilus presents a novel auto-scheduler that discovers sequences of high-level optimizations, while preserving the regular program structure needed by tile optimizers. Nautilus's auto-scheduler captures complex interactions and trade-offs in the high-level optimizations, including aggressive global transformations like advanced reduction fusion. Nautilus is the first end-to-end tensor compiler capable of starting from a math-like description of attention and automatically discovering FlashAttention-3-like kernels, offloading the entire burden of optimization from the programmer to the compiler. Across five transformer-based models and 150 evaluation configurations on NVIDIA GH200 and RTX 5090 GPUs, Nautilus achieves up to 23% higher throughput than state-of-the-art compilers on GH200 and up to 42% on RTX 5090, while matching or exceeding manually written cuDNN kernels on many long-sequence configurations.
Abstract（参考訳）: 完全自動算術-カーネル最適化に向けた新しいテンソルコンパイラであるNautilusを提案する。 Nautilusはテンソル演算子の高レベル代数仕様を効率的なタイル付きGPUカーネルにコンパイルする。 Nautilusの連続的な下降設計により、ハイレベルな最適化、式書き換え、タイル最適化を単一のエンドツーエンドシステムで共同で適用することができる。 Nautilusは、タイルオプティマイザが必要とする通常のプログラム構造を保ちながら、ハイレベルな最適化のシーケンスを検出する新しい自動スケジューリング器を提供する。 Nautilusの自動スケジューリングは、高度な還元融合のような積極的なグローバル変換を含む高レベルの最適化における複雑な相互作用とトレードオフをキャプチャする。 Nautilusは、数学的な注意の記述から始まり、自動的にFlashAttention-3のようなカーネルを発見し、プログラマからコンパイラへの最適化の負担を軽減できる最初のエンドツーエンドのテンソルコンパイラである。 NVIDIA GH200とRTX 5090 GPUの5つのトランスフォーマーベースモデルと150の評価設定で、NautilusはGH200の最先端コンパイラよりも最大23%高いスループットを実現し、RTX 5090では最大42%のスループットを実現している。

関連論文リスト

Graph Random Features for Scalable Gaussian Processes [52.89901965157282]
離散入力空間上のスケーラブルなガウス過程へのグラフランダム特徴(GRF)の適用について検討する。我々は、(穏やかな仮定の下で) GRF に対するベイズ的推論が、正確なカーネルに対して$O(N3)$のノード数に対して$O(N3/2)$の時間複雑性を楽しむことを証明した。
論文参考訳（メタデータ） (2025-09-03T20:13:23Z)
An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける技術性能の状態を導出する。クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高構造スパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。我々は、CGテンソル製品用のGPUスパースカーネルジェネレータを導入し、既存のオープンソース実装やクローズドソース実装よりも大幅に高速化する。
論文参考訳（メタデータ） (2025-01-23T08:20:47Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文参考訳（メタデータ） (2022-07-07T23:55:52Z)
A Compilation Flow for the Generation of CNN Inference Accelerators on FPGAs [0.0]
FPGA上でのCNN推論アクセラレータ生成のためのコンパイルフローを提案する。このフローは、フリーズされたモデルをTVMコンパイラでOpenCLカーネルに変換し、Intel OpenCL SDKを使用してFPGAビットストリームにコンパイルする。我々は,TVM が生成するベース OpenCL カーネルに最適化を適用することにより,生成されたハードウェアの品質を向上させる。
論文参考訳（メタデータ） (2022-03-08T11:21:35Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。