論文の概要: QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach
- arxiv url: http://arxiv.org/abs/2505.02146v1
- Date: Sun, 04 May 2025 15:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.449739
- Title: QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach
- Title(参考訳): QiMeng-Xpiler:ニューラルシンボリックアプローチによるディープラーニングシステムのためのテンソル変換プログラム
- Authors: Shouyang Dong, Yuanbo Wen, Jun Bi, Di Huang, Jiaming Guo, Jianxing Xu, Ruibai Xu, Xinkai Song, Yifan Hao, Xuehai Zhou, Tianshi Chen, Qi Guo, Yunji Chen,
- Abstract要約: 不均一深層学習システム (DLS) は産業用データセンターに広く導入されている。
そこで我々は,DLSをまたいでプログラムを自動的に翻訳する新しいトランスコンパイラ,すなわちQiMeng-Xpilerを提案する。
その結果、DLSのプログラミングは、レガシプログラムをトランスコンパイルすることで最大9倍改善される。
- 参考スコア(独自算出の注目度): 25.521351239401287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous deep learning systems (DLS) such as GPUs and ASICs have been widely deployed in industrial data centers, which requires to develop multiple low-level tensor programs for different platforms. An attractive solution to relieve the programming burden is to transcompile the legacy code of one platform to others. However, current transcompilation techniques struggle with either tremendous manual efforts or functional incorrectness, rendering "Write Once, Run Anywhere" of tensor programs an open question. We propose a novel transcompiler, i.e., QiMeng-Xpiler, for automatically translating tensor programs across DLS via both large language models (LLMs) and symbolic program synthesis, i.e., neural-symbolic synthesis. The key insight is leveraging the powerful code generation ability of LLM to make costly search-based symbolic synthesis computationally tractable. Concretely, we propose multiple LLM-assisted compilation passes via pre-defined meta-prompts for program transformation. During each program transformation, efficient symbolic program synthesis is employed to repair incorrect code snippets with a limited scale. To attain high performance, we propose a hierarchical auto-tuning approach to systematically explore both the parameters and sequences of transformation passes. Experiments on 4 DLS with distinct programming interfaces, i.e., Intel DL Boost with VNNI, NVIDIA GPU with CUDA, AMD MI with HIP, and Cambricon MLU with BANG, demonstrate that QiMeng-Xpiler correctly translates different tensor programs at the accuracy of 95% on average, and the performance of translated programs achieves up to 2.0x over vendor-provided manually-optimized libraries. As a result, the programming productivity of DLS is improved by up to 96.0x via transcompiling legacy tensor programs.
- Abstract(参考訳): GPUやASICのような不均一なディープラーニングシステム(DLS)は、さまざまなプラットフォーム向けに複数の低レベルテンソルプログラムを開発する必要がある産業用データセンターに広くデプロイされている。
プログラミングの負担を軽減するための魅力的な解決策は、あるプラットフォームのレガシーコードを他のプラットフォームにトランスコンパイルすることです。
しかし、現在のトランスコンパイル技術は、膨大な手作業や機能上の誤りに悩まされ、テンソルプログラムの"Write Once, Run Anywhere"がオープンな疑問である。
本稿では,大言語モデル(LLM)と記号型プログラム合成(ニューラルシンボリックシンボリックシンセサイザー)の両方を用いて,DLSをまたいだテンソルプログラムを自動的に翻訳するトランスコンパイラ,すなわちQiMeng-Xpilerを提案する。
重要な洞察は、LLMの強力なコード生成能力を活用して、コストのかかる検索ベースのシンボリック合成を計算的に抽出できるようにすることである。
具体的には、プログラム変換のために、事前に定義されたメタプロンプトを介して複数のLCM支援コンパイルパスを提案する。
各プログラム変換では,符号スニペットの修正に効率的な記号型プログラム合成を用いる。
高い性能を達成するために,変換パスのパラメータとシーケンスの両方を体系的に探索する階層的自動チューニング手法を提案する。
Intel DL Boost with VNNI、NVIDIA GPU with CUDA、AMD MI with HIP、Cambricon MLU with BANGといった4つのDLSの実験では、QiMeng-Xpilerは平均95%の精度で異なるテンソルプログラムを正しく翻訳し、翻訳プログラムのパフォーマンスはベンダーが提供する手動最適化ライブラリの最大2.0倍に達することを示した。
その結果、DLSのプログラミング生産性は、レガシーテンソルプログラムをトランスコンパイルすることで96.0倍向上する。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Hexcute: A Tile-based Programming Language with Automatic Layout and Task-Mapping Synthesis [8.742879659920643]
Hexcuteはタイルベースのプログラミング言語で、共有メモリとレジスタの抽象化を公開し、混合型演算子のきめ細かい最適化を可能にする。
レイアウトとタスクマッピングの合成を、新しい型推論ベースのアルゴリズムで自動化する。
評価の結果,Hexcute は広い範囲の DL 演算子に一般化し,混合型演算子に対する既存の DL コンパイラよりも 1.7-11.28$times$ の高速化を実現し,エンドツーエンド評価では 2.91$times$ の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-22T19:01:28Z) - ALTA: Compiler-Based Analysis of Transformers [56.76482035060707]
本稿では,ALTAプログラムをトランスフォーマー重みにマッピングできるALTAとコンパイラを提案する。
ALTA は Weiss らによって提案された RASP にインスパイアされている。
コンポジション一般化タスクのSCANベンチマークの解法と同様に,トランスフォーマーがパリティと加算を計算するための長さ不変のアルゴリズムをどう表現できるかを示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:49Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。