論文の概要: AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels
- arxiv url: http://arxiv.org/abs/2604.05066v1
- Date: Mon, 06 Apr 2026 18:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.431004
- Title: AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels
- Title(参考訳): AutoLALA: AIとHPCカーネルのためのループ代数的局所性の自動解析
- Authors: Yifan Zhu, Yekai Pan, Yanghui Wu, Chen Ding,
- Abstract要約: AutoLALAは、アフィンループプログラムにおけるデータのローカリティを分析するオープンソースツールである。
再利用距離とデータ移動複雑性のための閉形式記号式を生成する。
- 参考スコア(独自算出の注目度): 6.223124502234209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data movement is the primary bottleneck in modern computing systems. For loop-based programs common in high-performance computing (HPC) and AI workloads, including matrix multiplication, tensor contraction, stencil computation, and einsum operations, the cost of moving data through the memory hierarchy often exceeds the cost of arithmetic. This paper presents AutoLALA, an open-source tool that analyzes data locality in affine loop programs. The tool accepts programs written in a small domain-specific language (DSL), lowers them to polyhedral sets and maps, and produces closed-form symbolic formulas for reuse distance and data movement complexity. AutoLALA implements the fully symbolic locality analysis of Zhu et al. together with the data movement distance (DMD) framework of Smith et al. In particular, it computes reuse distance as the image of the access space under the access map, avoiding both stack simulation and Denning's recursive working-set formulation. We describe the DSL syntax and its formal semantics, the polyhedral lowering pipeline that constructs timestamp spaces and access maps via affine transformations, and the sequence of Barvinok counting operations used to derive symbolic reuse-interval and reuse-distance distributions. The system is implemented in Rust as a modular library spanning three crates, with safe bindings to the Barvinok library. We provide both a command-line interface and an interactive web playground with LaTeX rendering of the output formulas. The tool handles arbitrary affine loop nests, covering workloads such as tensor contractions, einsum expressions, stencil computations, and general polyhedral programs.
- Abstract(参考訳): データムーブメントは、現代のコンピューティングシステムにおける主要なボトルネックである。
行列乗算、テンソル収縮、ステンシル計算、einsum演算を含むハイパフォーマンスコンピューティング(HPC)やAIワークロードで一般的なループベースのプログラムでは、メモリ階層を通じてデータを移動させるコストが演算コストを上回ることがよくある。
本稿では,アフィンループプログラムにおけるデータの局所性を解析するオープンソースツールであるAutoLALAを提案する。
このツールは、小さなドメイン固有言語(DSL)で記述されたプログラムを受け入れ、それらを多面体集合とマップに還元し、再利用距離とデータ移動の複雑さのためのクローズドフォームのシンボル式を生成する。
AutoLALAは、Zhu et alとSmith et alのデータ移動距離(DMD)フレームワークの完全な記号的局所性解析を実装しており、特にアクセスマップの下のアクセス空間のイメージとして再利用距離を計算し、スタックシミュレーションとDenningの再帰的なワークセットの定式化を回避している。
本稿では,DSL構文とその形式的意味論,アフィン変換によるタイムスタンプ空間とアクセスマップを構築する多面的下降パイプライン,およびシンボル的再使用間隔分布と再利用距離分布の導出に使用されるバルビノクカウント操作のシーケンスについて述べる。
このシステムはRustで,3つのクレートにまたがるモジュールライブラリとして実装されており,Barvinokライブラリへの安全なバインディングを備えている。
出力式をLaTeXレンダリングしたコマンドラインインタフェースと対話型Webグラウンドの両方を提供する。
このツールは任意のアフィンループのネストを処理し、テンソル収縮、einsum式、ステンシル計算、一般的な多面体プログラムなどのワークロードをカバーする。
関連論文リスト
- On the Holographic Geometry of Deterministic Computation [0.0]
チューリングマシンの標準的なシミュレーションは、実行時間$t$と時間$t$で格納しなければならない情報の量との間の線形関係を示唆している。
我々は,任意の長さ$t$実行を,Algebraic Replay Engineとともにsuccinctツリー用のHeight Compression Theoremを介して$O(sqrtt)$ work-tapeセルでシミュレート可能であることを示す。
論文 参考訳(メタデータ) (2025-11-29T19:47:22Z) - From Loop Nests to Silicon: Mapping AI Workloads onto AMD NPUs with MLIR-AIR [6.2957456904504525]
汎用コンパイラは並列性、局所性、同期性を抽象化し、現代の空間アーキテクチャにおけるそれらの有効性を制限する。
MLIR上に構築された新しいオープンソースのコンパイラスタックであるMLIR-AIRを紹介する。
LLaMA2モデルの行列乗算とマルチヘッドアテンションブロックの2つのケーススタディを通してMLIR-AIRの機能を示す。
論文 参考訳(メタデータ) (2025-10-16T16:49:05Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。