論文の概要: P4OMP: Retrieval-Augmented Prompting for OpenMP Parallelism in Serial Code
- arxiv url: http://arxiv.org/abs/2506.22703v1
- Date: Sat, 28 Jun 2025 01:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.521068
- Title: P4OMP: Retrieval-Augmented Prompting for OpenMP Parallelism in Serial Code
- Title(参考訳): P4OMP: シリアルコードにおけるOpenMP並列性のための検索強化プロンプト
- Authors: Wali Mohammad Abdullah, Azmain Kabir,
- Abstract要約: 我々は,大規模言語モデル(LLM)を用いて,シリアルC/C++コードをOpenMPアノテーション付き並列コードに変換するフレームワークであるP4OMPを提案する。
我々の知る限り、モデル微調整やコンパイラのインスツルメンテーションを使わずに、OpenMPのプラグマ補正に検索ベースのプロンプトを適用する最初のシステムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present P4OMP, a retrieval-augmented framework for transforming serial C/C++ code into OpenMP-annotated parallel code using large language models (LLMs). To our knowledge, this is the first system to apply retrieval-based prompting for OpenMP pragma correctness without model fine-tuning or compiler instrumentation. P4OMP leverages Retrieval-Augmented Generation (RAG) with structured instructional knowledge from OpenMP tutorials to improve the reliability of prompt-driven code generation. By grounding generation in the retrieved context, P4OMP improves syntactic correctness compared to baseline prompting with GPT-3.5-Turbo. We evaluate P4OMP against a baseline, GPT-3.5-Turbo without retrieval, on a comprehensive benchmark of 108 real-world C++ programs drawn from Stack Overflow, PolyBench, and NAS benchmark suites. P4OMP achieves 100% compilation success on all parallelizable cases, while the baseline fails to compile in 20 out of 108 cases. Six cases that rely on non-random-access iterators or thread-unsafe constructs are excluded due to fundamental OpenMP limitations. A detailed analysis demonstrates how P4OMP consistently avoids scoping errors, syntactic misuse, and invalid directive combinations that commonly affect baseline-generated code. We further demonstrate strong runtime scaling across seven compute-intensive benchmarks on an HPC cluster. P4OMP offers a robust, modular pipeline that significantly improves the reliability and applicability of LLM-generated OpenMP code.
- Abstract(参考訳): 本稿では,C/C++ コードを大言語モデル (LLM) を用いた OpenMP アノテーション付き並列コードに変換するための検索拡張フレームワーク P4OMP を提案する。
我々の知る限り、モデル微調整やコンパイラーのインスツルメンテーションを使わずに、OpenMPのプラグマ補正に検索ベースのプロンプトを適用する最初のシステムである。
P4OMPは、Retrieval-Augmented Generation (RAG)を活用し、OpenMPチュートリアルから構造化された命令知識を利用して、プロンプト駆動コード生成の信頼性を向上させる。
検索した文脈で生成を行うことで、P4OMPはGPT-3.5-Turboで進行するベースラインよりも構文的正確性を向上させる。
我々は,Stack Overflow, PolyBench, NASベンチマークスイートから抽出した108個の実世界のC++プログラムの総合ベンチマークを用いて,P4OMPをベースラインであるGPT-3.5-Turboに対して無検索で評価した。
P4OMPは並列化可能なすべてのケースで100%コンパイルが成功し、ベースラインは108ケース中20ケースでコンパイルできない。
非ランダムアクセスイテレータやスレッドアンセーフコンストラクタに依存する6つのケースは、基本的なOpenMP制限のため除外される。
詳細な分析では、P4OMPがスコーピングエラー、構文的誤用、ベースライン生成コードによく影響を与える無効なディレクティブの組み合わせを一貫して避けていることを示す。
さらに、HPCクラスタ上の7つの計算集約型ベンチマークに対して、強力なランタイムスケーリングを実証する。
P4OMPは、LLM生成したOpenMPコードの信頼性と適用性を大幅に向上させる、堅牢でモジュラーなパイプラインを提供する。
関連論文リスト
- PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文 参考訳(メタデータ) (2024-02-22T16:06:23Z) - MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。
HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。
この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-14T12:24:21Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Advising OpenMP Parallelization via a Graph-Based Approach with
Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。
OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。
以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T16:56:10Z) - MPI-rical: Data-Driven MPI Distributed Parallelism Assistance with
Transformers [3.2164100882807913]
メッセージパッシングインタフェース(MPI)は、複数のノードにわたる分散メモリ並列化において重要な役割を果たす。
データ駆動型プログラミング支援ツールであるMPI-RICALを開発した。
MPICodeCorpusは、GitHub上の15,000以上のオープンソースリポジトリをマイニングして作成される、MPIベースの並列プログラムの最初の公開コーパスです。
論文 参考訳(メタデータ) (2023-05-16T13:50:24Z) - Learning to Parallelize in a Shared-Memory Environment with Transformers [3.340971990034025]
OpenMPは共有メモリ並列化スキームを実装する最も包括的なAPIである。
多くのソース・トゥ・ソース(S2S)コンパイラが長年にわたって作成され、OpenMPディレクティブをコードに自動的に挿入するタスクをこなしてきた。
本研究では,S2Sコンパイラを完全に置き換えるために,ML技術,特に自然言語処理(NLP)の最近の進歩を活用することを提案する。
論文 参考訳(メタデータ) (2022-04-27T10:39:52Z) - Lossless Compression of Efficient Private Local Randomizers [55.657133416044104]
Locally Differentially Private (LDP) Reportsは、フェデレーション設定における統計と機械学習の収集に一般的に使用されます。
多くの場合、最もよく知られたldpアルゴリズムは、クライアントデバイスからサーバに強制的に大きなメッセージを送信する必要がある。
これにより、LDPアルゴリズムの通信コストの削減に大きく貢献しています。
論文 参考訳(メタデータ) (2021-02-24T07:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。