Fugu-MT 論文翻訳(概要): OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation

論文の概要: OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation

arxiv url: http://arxiv.org/abs/2409.14771v1
Date: Mon, 23 Sep 2024 07:39:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 21:12:18.793642
Title: OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation
Title（参考訳）: OMPar: AI駆動のソース・トゥ・ソースコンパイルによる自動並列化
Authors: Tal Kadosh, Niranjan Hasabnis, Prema Soundararajan, Vy A. Vo, Mihai Capota, Nesreen Ahmed, Yuval Pinter, Gal Oren,
Abstract要約: 本稿では,OpenMP pragmasを用いたC/C++コードの並列化を自動化するAI駆動型ツールであるOMParを紹介する。 OMParは、ループ並列化ポテンシャルを評価するOMPifyと、正確なOpenMPパグマを生成する新しい微調整モデルであるMonoCoder-OMPの2つの主要なコンポーネントを通じて、LLM(Large Language Models)を統合している。
参考スコア（独自算出の注目度）: 4.266086505323998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Manual parallelization of code remains a significant challenge due to the complexities of modern software systems and the widespread adoption of multi-core architectures. This paper introduces OMPar, an AI-driven tool designed to automate the parallelization of C/C++ code using OpenMP pragmas. OMPar integrates Large Language Models (LLMs) through two key components: OMPify, which assesses loop parallelization potential, and MonoCoder-OMP, a new fine-tuned model which generates precise OpenMP pragmas. The evaluation of OMPar follows the same rigorous process applied to traditional tools like source-to-source AutoPar and ICPC compilers: (1) ensuring the generated code compiles and runs correctly in serial form, (2) assessing performance with the gradual addition of threads and corresponding physical cores, and (3) verifying and validating the correctness of the code's output. Benchmarks from HeCBench and ParEval are used to evaluate accuracy and performance. Experimental results demonstrate that OMPar significantly outperforms traditional methods, achieving higher accuracy in identifying parallelizable loops and generating efficient pragmas. Beyond accuracy, OMPar offers advantages such as the ability to work on partial or incomplete codebases and the capacity to continuously learn from new code patterns, enhancing its parallelization capabilities over time. These results underscore the potential of LLMs in revolutionizing automatic parallelization techniques, paving the way for more efficient and scalable parallel computing systems.
Abstract（参考訳）: 現代のソフトウェアシステムの複雑さとマルチコアアーキテクチャが広く採用されているため、コードの手動並列化は依然として重大な課題である。本稿では,OpenMP pragmasを用いたC/C++コードの並列化を自動化するAI駆動型ツールであるOMParを紹介する。 OMParは、ループ並列化ポテンシャルを評価するOMPifyと、正確なOpenMPパグマを生成する新しい微調整モデルであるMonoCoder-OMPの2つの主要なコンポーネントを通じて、LLM(Large Language Models)を統合している。 OMParの評価は、(1)生成されたコードがコンパイルされ、シリアル形式で正しく実行されること、(2)スレッドと対応する物理コアの段階的な追加によるパフォーマンスの評価、(3)コードの出力の正しさの検証と検証である。 HeCBenchとParEvalのベンチマークは精度と性能を評価するために使用される。実験の結果、OMParは従来の手法よりも優れており、並列化可能なループを識別し、効率の良いプラグマを生成する精度が高いことがわかった。正確性以外にも、OMParは部分的あるいは不完全なコードベースで作業する機能や、新しいコードパターンから継続的に学習する能力、時間の経過とともに並列化能力を高めるといった利点を提供している。これらの結果は、LLMが自動並列化技術に革命をもたらす可能性を強調し、より効率的でスケーラブルな並列コンピューティングシステムへの道を開いた。

関連論文リスト

Performance Evaluation of General Purpose Large Language Models for Basic Linear Algebra Subprograms Code Generation [0.0]
我々は,CPU用BLASコード生成のための既存の汎用LLMの性能を評価する。定期的な名前しか与えられていない場合でも、正しいコードが生成できることがわかりました。また,OpenMP,SIMDベクトル化,キャッシュブロッキングによるスレッド並列化をある程度実装できることを確認した。
論文参考訳（メタデータ） (2025-07-07T06:33:59Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。 PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文参考訳（メタデータ） (2025-02-21T13:52:31Z)
Should AI Optimize Your Code? A Comparative Study of Current Large Language Models Versus Classical Optimizing Compilers [0.0]
大規模言語モデル(LLM)は、コード最適化方法論に革命をもたらすAI駆動アプローチの可能性に関する興味深い疑問を提起する。本稿では、GPT-4.0とCodeLlama-70Bの2つの最先端大言語モデルと従来の最適化コンパイラの比較分析を行う。
論文参考訳（メタデータ） (2024-06-17T23:26:41Z)
MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。 HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-02-14T12:24:21Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
AUTOPARLLM: GNN-Guided Automatic Code Parallelization using Large Language Models [13.514916184776107]
AUTOPARLLMは、並列性を自動的に発見し、シーケンシャルなプログラムの並列バージョンを生成するためのフレームワークである。 NAS Parallel Benchmark と Rodinia Benchmark の2つの有名なベンチマークスイートを11のアプリケーションで評価した。この結果から, AUTOPARLLM は並列コード生成タスクにおける最先端の LLM モデルの改善に有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-06T06:51:16Z)
ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。 HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文参考訳（メタデータ） (2023-05-18T09:44:18Z)
Advising OpenMP Parallelization via a Graph-Based Approach with Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。 OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-16T16:56:10Z)
Learning to Parallelize with OpenMP by Augmented Heterogeneous AST Representation [7.750212995537728]
コードに異質な拡張抽象構文木(Augmented-AST)表現を利用するグラフベースの新しい学習手法Graph2Parを提案する。我々は18598並列化可能なOMP_Serialデータセットと13972非並列化可能なループを作成し、機械学習モデルをトレーニングする。提案手法は,85%の精度で並列化可能なコード領域検出の精度を実現し,最先端のトークンベース機械学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-09T21:57:15Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。 QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文参考訳（メタデータ） (2022-10-07T16:35:16Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。