論文の概要: QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach
- arxiv url: http://arxiv.org/abs/2505.02146v1
- Date: Sun, 04 May 2025 15:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.449739
- Title: QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach
- Title(参考訳): QiMeng-Xpiler:ニューラルシンボリックアプローチによるディープラーニングシステムのためのテンソル変換プログラム
- Authors: Shouyang Dong, Yuanbo Wen, Jun Bi, Di Huang, Jiaming Guo, Jianxing Xu, Ruibai Xu, Xinkai Song, Yifan Hao, Xuehai Zhou, Tianshi Chen, Qi Guo, Yunji Chen,
- Abstract要約: 不均一深層学習システム (DLS) は産業用データセンターに広く導入されている。
そこで我々は,DLSをまたいでプログラムを自動的に翻訳する新しいトランスコンパイラ,すなわちQiMeng-Xpilerを提案する。
その結果、DLSのプログラミングは、レガシプログラムをトランスコンパイルすることで最大9倍改善される。
- 参考スコア(独自算出の注目度): 25.521351239401287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous deep learning systems (DLS) such as GPUs and ASICs have been widely deployed in industrial data centers, which requires to develop multiple low-level tensor programs for different platforms. An attractive solution to relieve the programming burden is to transcompile the legacy code of one platform to others. However, current transcompilation techniques struggle with either tremendous manual efforts or functional incorrectness, rendering "Write Once, Run Anywhere" of tensor programs an open question. We propose a novel transcompiler, i.e., QiMeng-Xpiler, for automatically translating tensor programs across DLS via both large language models (LLMs) and symbolic program synthesis, i.e., neural-symbolic synthesis. The key insight is leveraging the powerful code generation ability of LLM to make costly search-based symbolic synthesis computationally tractable. Concretely, we propose multiple LLM-assisted compilation passes via pre-defined meta-prompts for program transformation. During each program transformation, efficient symbolic program synthesis is employed to repair incorrect code snippets with a limited scale. To attain high performance, we propose a hierarchical auto-tuning approach to systematically explore both the parameters and sequences of transformation passes. Experiments on 4 DLS with distinct programming interfaces, i.e., Intel DL Boost with VNNI, NVIDIA GPU with CUDA, AMD MI with HIP, and Cambricon MLU with BANG, demonstrate that QiMeng-Xpiler correctly translates different tensor programs at the accuracy of 95% on average, and the performance of translated programs achieves up to 2.0x over vendor-provided manually-optimized libraries. As a result, the programming productivity of DLS is improved by up to 96.0x via transcompiling legacy tensor programs.
- Abstract(参考訳): GPUやASICのような不均一なディープラーニングシステム(DLS)は、さまざまなプラットフォーム向けに複数の低レベルテンソルプログラムを開発する必要がある産業用データセンターに広くデプロイされている。
プログラミングの負担を軽減するための魅力的な解決策は、あるプラットフォームのレガシーコードを他のプラットフォームにトランスコンパイルすることです。
しかし、現在のトランスコンパイル技術は、膨大な手作業や機能上の誤りに悩まされ、テンソルプログラムの"Write Once, Run Anywhere"がオープンな疑問である。
本稿では,大言語モデル(LLM)と記号型プログラム合成(ニューラルシンボリックシンボリックシンセサイザー)の両方を用いて,DLSをまたいだテンソルプログラムを自動的に翻訳するトランスコンパイラ,すなわちQiMeng-Xpilerを提案する。
重要な洞察は、LLMの強力なコード生成能力を活用して、コストのかかる検索ベースのシンボリック合成を計算的に抽出できるようにすることである。
具体的には、プログラム変換のために、事前に定義されたメタプロンプトを介して複数のLCM支援コンパイルパスを提案する。
各プログラム変換では,符号スニペットの修正に効率的な記号型プログラム合成を用いる。
高い性能を達成するために,変換パスのパラメータとシーケンスの両方を体系的に探索する階層的自動チューニング手法を提案する。
Intel DL Boost with VNNI、NVIDIA GPU with CUDA、AMD MI with HIP、Cambricon MLU with BANGといった4つのDLSの実験では、QiMeng-Xpilerは平均95%の精度で異なるテンソルプログラムを正しく翻訳し、翻訳プログラムのパフォーマンスはベンダーが提供する手動最適化ライブラリの最大2.0倍に達することを示した。
その結果、DLSのプログラミング生産性は、レガシーテンソルプログラムをトランスコンパイルすることで96.0倍向上する。
関連論文リスト
- ALTA: Compiler-Based Analysis of Transformers [56.76482035060707]
本稿では,ALTAプログラムをトランスフォーマー重みにマッピングできるALTAとコンパイラを提案する。
ALTA は Weiss らによって提案された RASP にインスパイアされている。
コンポジション一般化タスクのSCANベンチマークの解法と同様に,トランスフォーマーがパリティと加算を計算するための長さ不変のアルゴリズムをどう表現できるかを示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:49Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。