Fugu-MT 論文翻訳(概要): Optimizing FDTD Solvers for Electromagnetics: A Compiler-Guided Approach with High-Level Tensor Abstractions

論文の概要: Optimizing FDTD Solvers for Electromagnetics: A Compiler-Guided Approach with High-Level Tensor Abstractions

arxiv url: http://arxiv.org/abs/2504.09118v1
Date: Sat, 12 Apr 2025 08:08:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 13:34:38.550158
Title: Optimizing FDTD Solvers for Electromagnetics: A Compiler-Guided Approach with High-Level Tensor Abstractions
Title（参考訳）: 電磁界におけるFDTDの最適解法--高レベルテンソル抽象化を用いたコンパイラ誘導アプローチ
Authors: Yifei He, Måns I. Andersson, Stefano Markidis,
Abstract要約: 差分時間領域シミュレーションのためのMLIR/LLVMインフラストラクチャに基づくエンドツーエンドのドメイン固有コンパイラを提案する。我々は3次元のカーネルを明示的な計算意味論を持つ3次元テンソル抽象の演算として実装する。ループタイリング、融合、ベクトル化といったハイレベルな最適化はコンパイラによって自動的に適用される。
参考スコア（独自算出の注目度）: 0.7373617024876725
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The Finite Difference Time Domain (FDTD) method is a widely used numerical technique for solving Maxwell's equations, particularly in computational electromagnetics and photonics. It enables accurate modeling of wave propagation in complex media and structures but comes with significant computational challenges. Traditional FDTD implementations rely on handwritten, platform-specific code that optimizes certain kernels while underperforming in others. The lack of portability increases development overhead and creates performance bottlenecks, limiting scalability across modern hardware architectures. To address these challenges, we introduce an end-to-end domain-specific compiler based on the MLIR/LLVM infrastructure for FDTD simulations. Our approach generates efficient and portable code optimized for diverse hardware platforms.We implement the three-dimensional FDTD kernel as operations on a 3D tensor abstraction with explicit computational semantics. High-level optimizations such as loop tiling, fusion, and vectorization are automatically applied by the compiler. We evaluate our customized code generation pipeline on Intel, AMD, and ARM platforms, achieving up to $10\times$ speedup over baseline Python implementation using NumPy.
Abstract（参考訳）: 有限差分時間領域 (FDTD) 法はマクスウェル方程式、特に計算電磁学やフォトニクスにおいて広く用いられる数値手法である。複雑なメディアや構造における波動伝播の正確なモデリングを可能にするが、計算上の大きな課題が伴う。従来のFDTD実装は手書きのプラットフォーム固有のコードに依存しており、特定のカーネルを最適化し、他のカーネルでは性能が劣っている。ポータビリティの欠如により、開発オーバーヘッドが増加し、パフォーマンスボトルネックが発生し、現代的なハードウェアアーキテクチャにおけるスケーラビリティが制限される。これらの課題に対処するために,FDTDシミュレーションのためのMLIR/LLVMインフラストラクチャに基づくエンドツーエンドのドメイン固有コンパイラを提案する。提案手法は,多種多様なハードウェアプラットフォーム向けに最適化された効率的かつポータブルなコードを生成する。ループタイリング、融合、ベクトル化といったハイレベルな最適化はコンパイラによって自動的に適用される。我々は、Intel、AMD、ARMプラットフォーム上でカスタマイズされたコード生成パイプラインを評価し、NumPyを使用してベースラインPython実装を最大10\times$スピードアップしました。

関連論文リスト

TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。 TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2025-04-24T14:08:49Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文参考訳（メタデータ） (2023-01-03T19:52:17Z)
Towards making the most of NLP-based device mapping optimization for OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文参考訳（メタデータ） (2022-08-30T10:20:55Z)
Efficient Learning of Generative Models via Finite-Difference Score Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文参考訳（メタデータ） (2020-07-07T10:05:01Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
DFTpy: An efficient and object-oriented platform for orbital-free DFT simulations [55.41644538483948]
本稿では、Python 3で完全に書かれたOFDFTを実装したオープンソースソフトウェアであるDFTpyを紹介する。本稿では,1CPUで計算したアルミニウムの100万原子系の電子構造について紹介する。 DFTpyはMITライセンスでリリースされている。
論文参考訳（メタデータ） (2020-02-07T19:07:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。