Fugu-MT 論文翻訳(概要): P4OMP: Retrieval-Augmented Prompting for OpenMP Parallelism in Serial Code

論文の概要: P4OMP: Retrieval-Augmented Prompting for OpenMP Parallelism in Serial Code

arxiv url: http://arxiv.org/abs/2506.22703v1
Date: Sat, 28 Jun 2025 01:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.521068
Title: P4OMP: Retrieval-Augmented Prompting for OpenMP Parallelism in Serial Code
Title（参考訳）: P4OMP: シリアルコードにおけるOpenMP並列性のための検索強化プロンプト
Authors: Wali Mohammad Abdullah, Azmain Kabir,
Abstract要約: 我々は,大規模言語モデル(LLM)を用いて,シリアルC/C++コードをOpenMPアノテーション付き並列コードに変換するフレームワークであるP4OMPを提案する。我々の知る限り、モデル微調整やコンパイラのインスツルメンテーションを使わずに、OpenMPのプラグマ補正に検索ベースのプロンプトを適用する最初のシステムである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present P4OMP, a retrieval-augmented framework for transforming serial C/C++ code into OpenMP-annotated parallel code using large language models (LLMs). To our knowledge, this is the first system to apply retrieval-based prompting for OpenMP pragma correctness without model fine-tuning or compiler instrumentation. P4OMP leverages Retrieval-Augmented Generation (RAG) with structured instructional knowledge from OpenMP tutorials to improve the reliability of prompt-driven code generation. By grounding generation in the retrieved context, P4OMP improves syntactic correctness compared to baseline prompting with GPT-3.5-Turbo. We evaluate P4OMP against a baseline, GPT-3.5-Turbo without retrieval, on a comprehensive benchmark of 108 real-world C++ programs drawn from Stack Overflow, PolyBench, and NAS benchmark suites. P4OMP achieves 100% compilation success on all parallelizable cases, while the baseline fails to compile in 20 out of 108 cases. Six cases that rely on non-random-access iterators or thread-unsafe constructs are excluded due to fundamental OpenMP limitations. A detailed analysis demonstrates how P4OMP consistently avoids scoping errors, syntactic misuse, and invalid directive combinations that commonly affect baseline-generated code. We further demonstrate strong runtime scaling across seven compute-intensive benchmarks on an HPC cluster. P4OMP offers a robust, modular pipeline that significantly improves the reliability and applicability of LLM-generated OpenMP code.
Abstract（参考訳）: 本稿では,C/C++ コードを大言語モデル (LLM) を用いた OpenMP アノテーション付き並列コードに変換するための検索拡張フレームワーク P4OMP を提案する。我々の知る限り、モデル微調整やコンパイラーのインスツルメンテーションを使わずに、OpenMPのプラグマ補正に検索ベースのプロンプトを適用する最初のシステムである。 P4OMPは、Retrieval-Augmented Generation (RAG)を活用し、OpenMPチュートリアルから構造化された命令知識を利用して、プロンプト駆動コード生成の信頼性を向上させる。検索した文脈で生成を行うことで、P4OMPはGPT-3.5-Turboで進行するベースラインよりも構文的正確性を向上させる。我々は,Stack Overflow, PolyBench, NASベンチマークスイートから抽出した108個の実世界のC++プログラムの総合ベンチマークを用いて,P4OMPをベースラインであるGPT-3.5-Turboに対して無検索で評価した。 P4OMPは並列化可能なすべてのケースで100%コンパイルが成功し、ベースラインは108ケース中20ケースでコンパイルできない。非ランダムアクセスイテレータやスレッドアンセーフコンストラクタに依存する6つのケースは、基本的なOpenMP制限のため除外される。詳細な分析では、P4OMPがスコーピングエラー、構文的誤用、ベースライン生成コードによく影響を与える無効なディレクティブの組み合わせを一貫して避けていることを示す。さらに、HPCクラスタ上の7つの計算集約型ベンチマークに対して、強力なランタイムスケーリングを実証する。 P4OMPは、LLM生成したOpenMPコードの信頼性と適用性を大幅に向上させる、堅牢でモジュラーなパイプラインを提供する。

関連論文リスト

LLM-HPC++: Evaluating LLM-Generated Modern C++ and MPI+OpenMP Codes for Scalable Mandelbrot Set Computation [0.0]
大規模言語モデル(LLM)は、コード生成の自動化において有望であるが、その正確かつ効率的なHPCコードを生成する効果はよく理解されていない。我々は,共有メモリ,ディレクティブベース,分散メモリのパラダイムを用いて,マンデルブロット集合のC++実装を生成するタスクにおいて,ChatGPT 4および5,Claude,LLaMAを含む主要なLLMを体系的に評価した。その結果, ChatGPT-4 と ChatGPT-5 は高い構文的精度と拡張性が得られることがわかった。
論文参考訳（メタデータ） (2025-12-18T19:37:33Z)
QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。 LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文参考訳（メタデータ） (2025-11-03T03:20:26Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation [4.266086505323998]
本稿では,OpenMP pragmasを用いたC/C++コードの並列化を自動化するAI駆動型ツールであるOMParを紹介する。 OMParは、ループ並列化ポテンシャルを評価するOMPifyと、正確なOpenMPパグマを生成する新しい微調整モデルであるMonoCoder-OMPの2つの主要なコンポーネントを通じて、LLM(Large Language Models)を統合している。
論文参考訳（メタデータ） (2024-09-23T07:39:01Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文参考訳（メタデータ） (2024-02-22T16:06:23Z)
MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。 HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-02-14T12:24:21Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Advising OpenMP Parallelization via a Graph-Based Approach with Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。 OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-16T16:56:10Z)
MPI-rical: Data-Driven MPI Distributed Parallelism Assistance with Transformers [3.2164100882807913]
メッセージパッシングインタフェース(MPI)は、複数のノードにわたる分散メモリ並列化において重要な役割を果たす。データ駆動型プログラミング支援ツールであるMPI-RICALを開発した。 MPICodeCorpusは、GitHub上の15,000以上のオープンソースリポジトリをマイニングして作成される、MPIベースの並列プログラムの最初の公開コーパスです。
論文参考訳（メタデータ） (2023-05-16T13:50:24Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
Learning to Parallelize in a Shared-Memory Environment with Transformers [3.340971990034025]
OpenMPは共有メモリ並列化スキームを実装する最も包括的なAPIである。多くのソース・トゥ・ソース(S2S)コンパイラが長年にわたって作成され、OpenMPディレクティブをコードに自動的に挿入するタスクをこなしてきた。本研究では,S2Sコンパイラを完全に置き換えるために,ML技術,特に自然言語処理(NLP)の最近の進歩を活用することを提案する。
論文参考訳（メタデータ） (2022-04-27T10:39:52Z)
Lossless Compression of Efficient Private Local Randomizers [55.657133416044104]
Locally Differentially Private (LDP) Reportsは、フェデレーション設定における統計と機械学習の収集に一般的に使用されます。多くの場合、最もよく知られたldpアルゴリズムは、クライアントデバイスからサーバに強制的に大きなメッセージを送信する必要がある。これにより、LDPアルゴリズムの通信コストの削減に大きく貢献しています。
論文参考訳（メタデータ） (2021-02-24T07:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。