論文の概要: ACCeLLiuM: Supervised Fine-Tuning for Automated OpenACC Pragma Generation
- arxiv url: http://arxiv.org/abs/2509.20380v1
- Date: Sat, 20 Sep 2025 20:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.482294
- Title: ACCeLLiuM: Supervised Fine-Tuning for Automated OpenACC Pragma Generation
- Title(参考訳): ACCeLLiuM: 自動OpenACCプラグマ生成のためのファインチューニング
- Authors: Samyak Jhaveri, Vanessa Klotzmann, Crista Lopes,
- Abstract要約: 本稿では,2つのオープンウェイトであるACCeLLiuMについて紹介する。
ACCeLLiuM SFTデータセットには、GitHub C/C++から採掘された4,033のOpenACCプラグマループペア、トレーニング用の3,223ペア、テスト用の810が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increasing ubiquity of GPUs is accompanied by the increasing complexity of their hardware and parallel programming frameworks. Directive-based parallel programming standards like OpenACC simplify GPU programming to some extent by abstracting away low-level complexities, but a fair amount of expertise is still required in order to use those directives effectively. We introduce ACCeLLiuM, two open weights Large Language Models specifically fine-tuned for generating expert OpenACC directives for data-parallel loops, along with the supervised fine-tuning dataset that was used to train them. The ACCeLLiuM SFT dataset contains 4,033 OpenACC pragma-loop pairs mined from public GitHub C/C++ repositories, with 3,223 pairs for training and 810 for testing. Experimental evaluations show a pronounced performance gap in generating correct OpenACC pragmas between base LLMs and our fine-tuned versions. On the held-out test set, base LLMs fail to consistently generate valid pragmas, whereas LLMs fine-tuned on the ACCeLLiuM dataset generate valid pragmas with the correct directive type for $87\%$ of the data-parallel loops, and exact pragmas--including directives, clauses, clause order, and clause variables--for $50\%$ of the cases. Even when not exact, generated pragmas frequently incorporate the correct clauses in a different order than the ground-truth label, or include additional clauses that enable finer control over parallel execution, data movement, and concurrency, offering practical value beyond strict string-matching. By publicly releasing the code, models, and dataset as ACCeLLiuM we hope to establish a reproducible benchmark for LLM-powered OpenACC pragma generation, and lower the barrier to automated GPU offloading of serially written programs.
- Abstract(参考訳): GPUの普及に伴い、ハードウェアと並列プログラミングフレームワークの複雑さが増している。
OpenACCのようなディレクティブベースの並列プログラミング標準は、低レベルの複雑さを抽象化することでGPUプログラミングをある程度単純化するが、これらのディレクティブを効果的に使用するためには、依然としてかなりの専門知識が必要である。
データ並列ループのエキスパートOpenACCディレクティブを生成するために特別に微調整された大言語モデルであるACCeLLiuMと、それらをトレーニングするために使用した教師付き微調整データセットを紹介する。
ACCeLLiuM SFTデータセットには、公開GitHub C/C++リポジトリから抽出された4,033のOpenACCプラグマループペア、トレーニング用の3,223ペア、テスト用の810が含まれている。
実験により, ベースLLMと細調整したバージョン間で, 適切なOpenACCパグマを生成する際に, 顕著な性能差が認められた。
一方、ACCeLLiuMデータセットで微調整されたLLMは、正しいディレクティブ型を持つ有効なプラグマを、データ並列ループの87 %$と、正確なプラグマ(ディレクティブ、節、節順、節順を含む)で生成する。
たとえ正確でなくても、生成されたプラグマは、接頭辞と異なる順序で正しい節を組み込んだり、並列実行、データ移動、並行処理のより細かい制御を可能にし、厳密な文字列マッチング以上の実用的な価値を提供する追加の節を含む。
ACCeLLiuMとしてコード、モデル、データセットを公開することにより、LLMによるOpenACCプラグマ生成のための再現可能なベンチマークを確立し、シリアルプログラムの自動GPUオフロードの障壁を低くしたいと考えています。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。
LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。
以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-06T21:41:20Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - LASSI: An LLM-based Automated Self-Correcting Pipeline for Translating Parallel Scientific Codes [0.23301643766310373]
LASSI は、既存のクローズドまたはオープンソース LLM をブートストラップすることで、並列プログラミング言語間の変換を意図している。
LASSIには自己修正ループによる自律的な拡張が組み込まれており、生成されたコードのコンパイルと実行中に発生するエラーがLLMにフィードバックされる。
論文 参考訳(メタデータ) (2024-06-30T19:36:04Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Advising OpenMP Parallelization via a Graph-Based Approach with
Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。
OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。
以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T16:56:10Z) - Learning to Parallelize in a Shared-Memory Environment with Transformers [3.340971990034025]
OpenMPは共有メモリ並列化スキームを実装する最も包括的なAPIである。
多くのソース・トゥ・ソース(S2S)コンパイラが長年にわたって作成され、OpenMPディレクティブをコードに自動的に挿入するタスクをこなしてきた。
本研究では,S2Sコンパイラを完全に置き換えるために,ML技術,特に自然言語処理(NLP)の最近の進歩を活用することを提案する。
論文 参考訳(メタデータ) (2022-04-27T10:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。