論文の概要: Theoretical Foundations of GPU-Native Compilation for Rapid Code Iteration
- arxiv url: http://arxiv.org/abs/2512.11200v1
- Date: Fri, 12 Dec 2025 01:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.612664
- Title: Theoretical Foundations of GPU-Native Compilation for Rapid Code Iteration
- Title(参考訳): 高速コード反復のためのGPU-Nativeコンパイルの理論基礎
- Authors: Adilet Metinov, Gulida M. Kudakeeva, Gulnara D. Kabaeva,
- Abstract要約: 現在のAIコード生成システムは、コンパイル、実行、テストフェーズにおけるCPU-GPUデータ転送による大きな遅延ボトルネックに悩まされている。
我々は,GPUネイティブコンパイルに対する3つの補完的アプローチの理論的基盤を確立し,これらの転送を排除した。
コードサイクルの10~100倍の潜在的なスピードアップを示すレイテンシとエネルギーバウンダリを導出します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current AI code generation systems suffer from significant latency bottlenecks due to CPU-GPU data transfers during compilation, execution, and testing phases. We establish theoretical foundations for three complementary approaches to GPU-native compilation that eliminate these transfers: (1) parallel traditional compilation adapted for GPU execution, (2) neural compilation using learned sequence-to-sequence translation with probabilistic verification, and (3) hybrid architectures combining both strategies. We derive latency and energy bounds demonstrating potential speedups of 10-100x for code iteration cycles. Our analysis shows that traditional GPU compilation provides 2-5x improvements through transfer elimination, neural compilation achieves 10-100x speedups via massive parallelism, and hybrid approaches offer practical deployment paths with guaranteed correctness. We formalize the probabilistic verification framework that enables trading compilation accuracy for parallel exploration, and discuss implications for self-improving AI systems and future analog computing substrates.
- Abstract(参考訳): 現在のAIコード生成システムは、コンパイル、実行、テストフェーズにおけるCPU-GPUデータ転送による大きな遅延ボトルネックに悩まされている。
1)GPU実行に適応した並列な従来型コンパイル,(2)確率的検証による学習シーケンス対シーケンス変換を用いたニューラルコンパイル,(3)両戦略を組み合わせたハイブリッドアーキテクチャ,である。
コード反復サイクルの10~100倍の潜在的なスピードアップを示すレイテンシとエネルギバウンダリを導出します。
分析の結果,従来のGPUコンパイルは転送除去による2~5倍,ニューラルコンパイルは大規模並列処理による10~100倍の高速化を実現し,ハイブリッドアプローチは信頼性を確保した実用的なデプロイメントパスを提供することがわかった。
本稿では,並列探索のためのトレーディングコンパイルの精度を実現する確率的検証フレームワークを定式化し,自己改善型AIシステムと将来のアナログコンピューティング基板への影響について議論する。
関連論文リスト
- Parallelizing Program Execution on Distributed Quantum Systems via Compiler/Hardware Co-Design [39.81714981855818]
本稿では,分散量子システム上での量子アルゴリズムの実行を強化する新しい手法を提案する。
提案手法は、並列命令実行をサポートするハードウェア設計と、並列処理の機会を増やすために命令の順序を変更するコンパイラの開発を含む。
結果は、ベースラインのシリアル実行モデルと比較して、最大平均速度16.5x、最大シングルベンチマーク速度56.2xを達成するという大きなスピードアップを示している。
論文 参考訳(メタデータ) (2025-11-18T10:05:20Z) - ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels [40.94392896555992]
既存のシステムは、計算通信の重複によってこれを緩和するが、しばしばワークロードと新しいアクセラレータ間の理論的帯域幅を満たさない。
演算子固有のテクニックの代わりに、簡単な再利用可能な原則の小さなセットが、ワークロードの最適なパフォーマンスを導くことができるかどうかを問う。
PKKittens(PK)カーネルは、最大2.33倍の並列ワークロードを実現する。
論文 参考訳(メタデータ) (2025-11-17T21:48:33Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - GPU-Accelerated Interpretable Generalization for Rapid Cyberattack Detection and Forensics [0.0]
IGメカニズムは最近IEEE Transactions on Information Forensics and Securityで公開され、最先端のエビデンスベースの侵入検知を提供する。
我々は、PyTorchの再設計であるIG-GPUを紹介し、すべてのペアの交叉とサブセット評価をコモディティGPUにオフロードする。
15kレコードのNSL-KDDデータセットでは、IG-GPUはIGのマルチコアCPU実装よりも116倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-07-16T12:38:19Z) - Constant-time hybrid compilation of Shor's algorithm with quantum just-in-time compilation [0.0]
この研究は、PennyLaneとCatalystを使って素量子ゲートにコンパイルされたShorのファクタリングアルゴリズムの実装を提供する。
QJITコンパイルでは,回路生成に$N$固有の最適化を適用した場合でも,そのアルゴリズムは1ビットあたり$N$でコンパイルされることを示す。
実装は32ビット$N$までベンチマークされ、コンパイルされたプログラムのサイズと純粋なコンパイル時間の両方が一定であることが判明した。
論文 参考訳(メタデータ) (2025-04-16T19:30:10Z) - Label-Looping: Highly Efficient Decoding for Transducers [19.091932566833265]
本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。
実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-06-10T12:34:38Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。