論文の概要: AUTOPARLLM: GNN-Guided Automatic Code Parallelization using Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.04047v2
- Date: Mon, 9 Oct 2023 02:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-12 18:53:11.613356
- Title: AUTOPARLLM: GNN-Guided Automatic Code Parallelization using Large
Language Models
- Title(参考訳): AUTOPARLLM:大規模言語モデルを用いたGNNによる自動コード並列化
- Authors: Quazi Ishtiaque Mahmud, Ali TehraniJamsaz, Hung D Phan, Nesreen K.
Ahmed and Ali Jannesari
- Abstract要約: AUTOPARLLMは、並列性を自動的に発見し、シーケンシャルなプログラムの並列バージョンを生成するためのフレームワークである。
NAS Parallel Benchmark と Rodinia Benchmark の2つの有名なベンチマークスイートを11のアプリケーションで評価した。
この結果から, AUTOPARLLM は並列コード生成タスクにおける最先端の LLM モデルの改善に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 13.514916184776107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallelizing sequentially written programs is a challenging task. Even
experienced developers need to spend considerable time finding parallelism
opportunities and then actually writing parallel versions of sequentially
written programs. To address this issue, we present AUTOPARLLM, a framework for
automatically discovering parallelism and generating the parallel version of
the sequentially written program. Our framework consists of two major
components: i) a heterogeneous Graph Neural Network (GNN) based parallelism
discovery and parallel pattern detection module, and ii) an LLM-based code
generator to generate the parallel counterpart of the sequential programs. We
use the GNN to learn the flow-aware characteristics of the programs to identify
parallel regions in sequential programs and then construct an enhanced prompt
using the GNN's results for the LLM-based generator to finally produce the
parallel counterparts of the sequential programs. We evaluate AUTOPARLLM on 11
applications of 2 well-known benchmark suites: NAS Parallel Benchmark and
Rodinia Benchmark. Our results show that AUTOPARLLM is indeed effective in
improving the state-of-the-art LLM-based models for the task of parallel code
generation in terms of multiple code generation metrics. AUTOPARLLM also
improves the average runtime of the parallel code generated by the
state-of-the-art LLMs by as high as 3.4% and 2.9% for the NAS Parallel
Benchmark and Rodinia Benchmark respectively. Additionally, to overcome the
issue that well-known metrics for translation evaluation have not been
optimized to evaluate the quality of the generated parallel code, we propose
OMPScore for evaluating the quality of the generated code. We show that
OMPScore exhibits a better correlation with human judgment than existing
metrics, measured by up to 75% improvement of Spearman correlation.
- Abstract(参考訳): 逐次的なプログラムの並列化は難しい課題である。
経験豊富な開発者でさえ、並列処理の機会を見つけ、実際にシーケンシャルに書かれたプログラムの並列バージョンを書くのにかなりの時間を費やす必要がある。
この問題に対処するために,並列性を自動的に発見し,シーケンシャルに記述されたプログラムの並列バージョンを生成するフレームワークであるautoparllmを提案する。
私たちのフレームワークは2つの主要なコンポーネントで構成されています。
一 並列性発見及び並列パターン検出モジュールを用いた異種グラフニューラルネットワーク(gnn)
二 逐次プログラムの並列対応を生成するための、llmベースのコードジェネレータ
我々は,プログラムのフロー認識特性を学習し,シーケンシャルプログラムにおける並列領域を識別し,LLM ベースのジェネレータに対して GNN の結果を用いて拡張プロンプトを構築し,シーケンシャルプログラムの並列領域を最終的に生成する。
NAS Parallel Benchmark と Rodinia Benchmark という,よく知られたベンチマークスイートの 11 つのアプリケーション上で AUTOPARLLM を評価する。
その結果,マルチコード生成メトリクスを用いた並列コード生成作業において,autoparllmは最先端llmベースモデルの改善に有効であることがわかった。
autoparllmはまた、最先端llmで生成された並列コードの平均ランタイムを、nas並列ベンチマークとrodiniaベンチマークでそれぞれ3.4%と2.9%改善した。
さらに、並列コードの品質を評価するために、翻訳評価のためのよく知られたメトリクスが最適化されていない問題を克服するために、生成されたコードの品質を評価するためのOMPScoreを提案する。
我々は,OMPScoreが既存の指標よりも人間の判断に優れた相関性を示し,スピアマン相関を最大75%改善することを示した。
関連論文リスト
- Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs [1.8911962184174564]
ディープニューラルネットワーク(DNN)における行列乗算に対するより安価な代替バイリニア演算子を提案する。
STLで線状層を置換し,スクラッチからトレーニングし,FLOPの因子x2.7を0.5倍の精度で減少させることを示した。
Slim Pajamaデータセット上のSTL層でTinyLlama citetinyllama24を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7と比べて2:4と同等の精度が得られる。
論文 参考訳(メタデータ) (2025-03-15T17:31:36Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation [4.266086505323998]
本稿では,OpenMP pragmasを用いたC/C++コードの並列化を自動化するAI駆動型ツールであるOMParを紹介する。
OMParは、ループ並列化ポテンシャルを評価するOMPifyと、正確なOpenMPパグマを生成する新しい微調整モデルであるMonoCoder-OMPの2つの主要なコンポーネントを通じて、LLM(Large Language Models)を統合している。
論文 参考訳(メタデータ) (2024-09-23T07:39:01Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices [18.81344021150902]
SpecExecは単純な並列デコード方式で、LLMファミリ向けのターゲットモデルイテレーション毎に最大20個のトークンを生成することができる。
我々は,RAMオフロードが4~6トークン/秒,量子化が4ビット,あるいは16ビット重みが2~3トークン/秒の一般GPU上で50B以上のパラメータLLMを推定した。
論文 参考訳(メタデータ) (2024-06-04T17:53:36Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。
HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。
この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-14T12:24:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Advising OpenMP Parallelization via a Graph-Based Approach with
Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。
OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。
以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T16:56:10Z) - Learning to Parallelize with OpenMP by Augmented Heterogeneous AST
Representation [7.750212995537728]
コードに異質な拡張抽象構文木(Augmented-AST)表現を利用するグラフベースの新しい学習手法Graph2Parを提案する。
我々は18598並列化可能なOMP_Serialデータセットと13972非並列化可能なループを作成し、機械学習モデルをトレーニングする。
提案手法は,85%の精度で並列化可能なコード領域検出の精度を実現し,最先端のトークンベース機械学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-09T21:57:15Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter
Dataset [53.73316523766183]
我々は,emphOODパターンとemphOOVトークンの両方を扱えるロバストなセマンティックフレーム解析パイプラインを導入する。
また、E2Eアプリケーションを構築して、アルゴリズムの有効性をデモし、それが実際のアプリケーションで有用である理由を示す。
論文 参考訳(メタデータ) (2022-12-18T01:59:49Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。
QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。
並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文 参考訳(メタデータ) (2022-10-07T16:35:16Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。