Fugu-MT 論文翻訳(概要): Bridging the Gap: Empowering Small Models in Reliable OpenACC-based Parallelization via GEPA-Optimized Prompting

論文の概要: Bridging the Gap: Empowering Small Models in Reliable OpenACC-based Parallelization via GEPA-Optimized Prompting

arxiv url: http://arxiv.org/abs/2601.08884v1
Date: Mon, 12 Jan 2026 23:54:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.124271
Title: Bridging the Gap: Empowering Small Models in Reliable OpenACC-based Parallelization via GEPA-Optimized Prompting
Title（参考訳）: ギャップのブリッジ: GEPA最適化プロンプトによる信頼性の高いOpenACCベースの並列化に小さなモデルを活用する
Authors: Samyak Jhaveri, Cristina V. Lopes,
Abstract要約: 提案手法は,OpenACC プラグマ生成を最適化する手法である。 OpenACC pragma を付加したプログラムのコンパイル成功率の増加を観察する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: OpenACC lowers the barrier to GPU offloading, but writing high-performing pragma remains complex, requiring deep domain expertise in memory hierarchies, data movement, and parallelization strategies. Large Language Models (LLMs) present a promising potential solution for automated parallel code generation, but naive prompting often results in syntactically incorrect directives, uncompilable code, or performance that fails to exceed CPU baselines. We present a systematic prompt optimization approach to enhance OpenACC pragma generation without the prohibitive computational costs associated with model post-training. Leveraging the GEPA (GEnetic-PAreto) framework, we iteratively evolve prompts through a reflective feedback loop. This process utilizes crossover and mutation of instructions, guided by expert-curated gold examples and structured feedback based on clause- and clause parameter-level mismatches between the gold and predicted pragma. In our evaluation on the PolyBench suite, we observe an increase in compilation success rates for programs annotated with OpenACC pragma generated using the optimized prompts compared to those annotated using the simpler initial prompt, particularly for the "nano"-scale models. Specifically, with optimized prompts, the compilation success rate for GPT-4.1 Nano surged from 66.7% to 93.3%, and for GPT-5 Nano improved from 86.7% to 100%, matching or surpassing the capabilities of their significantly larger, more expensive versions. Beyond compilation, the optimized prompts resulted in a 21% increase in the number of programs that achieve functional GPU speedups over CPU baselines. These results demonstrate that prompt optimization effectively unlocks the potential of smaller, cheaper LLMs in writing stable and effective GPU-offloading directives, establishing a cost-effective pathway to automated directive-based parallelization in HPC workflows.
Abstract（参考訳）: OpenACCはGPUオフロードの障壁を低くするが、ハイパフォーマンスなプラグマを書くことは依然として複雑であり、メモリ階層、データ移動、並列化戦略において深いドメインの専門知識を必要とする。大規模言語モデル(LLM)は、自動並列コード生成のための有望なソリューションを提供するが、単純なプロンプトによって、構文的に正しくないディレクティブやコンパイル不可能なコード、CPUベースラインを超えないパフォーマンスが得られることが多い。本稿では,モデル後学習に伴う計算コストを抑えることなく,OpenACCプラグマ生成を最適化する手法を提案する。 GEPA(GEnetic-Pareto)フレームワークを活用することで、リフレクティブフィードバックループを通じてプロンプトを反復的に進化させます。このプロセスは、専門家による金の例によって導かれる命令の交叉と突然変異と、ゴールドと予測されたプラグマの間の節と節のパラメータレベルのミスマッチに基づく構造化されたフィードバックを利用する。 The PolyBench suite, we observed the compilation success rate for programs with OpenACC pragma generated using the optimized prompts than them using the simple initial prompt, especially for the "nano"-scale models。具体的には、最適化されたプロンプトにより、GPT-4.1 Nanoのコンパイル成功率は66.7%から93.3%に増加し、GPT-5 Nanoは86.7%から100%に改善され、より大きく、より高価なバージョンの能力に匹敵するか、上回った。コンパイル以外にも、最適化されたプロンプトにより、CPUベースラインよりも機能的なGPUスピードアップを達成するプログラム数が21%増加した。これらの結果は、高速な最適化により、安定かつ効率的なGPUオフロードディレクティブの記述において、より小型で安価なLCMの可能性を効果的に解き、HPCワークフローにおける自動ディレクティブベースの並列化へのコスト効率の高い経路を確立することを示している。

関連論文リスト

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference [11.772150619675527]
Unified Sequence Parallelism (USP) は分散アテンション計算のための最先端のアプローチとして登場した。既存のUSP実装は、カーネルの起動オーバーヘッドと準通信スケジューリングに悩まされている。コンパイルレベル最適化,通信レベル最適化,演算子レベル最適化を統合したフレームワークである textbfFastUSP を提案する。
論文参考訳（メタデータ） (2026-02-11T15:19:57Z)
GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer [51.31263673158136]
GFlowPOは、メタプロンプト参照-LMにより正規化される潜在プロンプトに対する後部推論問題としてプロンプトをキャストする。 GFlowPOは、最近の離散的なプロンプト最適化ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-03T10:30:03Z)
A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization [9.49293344824955]
本稿では,エージェント駆動反復ループ上にテンプレートベースの書き換え層を導入する。提案手法は,実運用負荷に対する自動性能最適化を実現するために拡張することができる。
論文参考訳（メタデータ） (2026-01-19T03:40:12Z)
An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文参考訳（メタデータ） (2025-12-11T20:53:35Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
GPU-Accelerated Loopy Belief Propagation for Program Analysis [3.516434517865342]
本稿では,プログラム解析のためのGPU高速化LPPアルゴリズムを提案する。本稿では,依存関係解析アルゴリズムとともに,任意のユーザ定義更新戦略を指定する統一表現を提案する。当社のアプローチでは,最先端のシーケンシャルアプローチよりも平均2.14タイム,最先端のGPUベースのアプローチよりも5.56タイムのスピードアップを実現している。
論文参考訳（メタデータ） (2025-09-26T13:30:30Z)
ACCeLLiuM: Supervised Fine-Tuning for Automated OpenACC Pragma Generation [0.0]
本稿では,2つのオープンウェイトであるACCeLLiuMについて紹介する。 ACCeLLiuM SFTデータセットには、GitHub C/C++から採掘された4,033のOpenACCプラグマループペア、トレーニング用の3,223ペア、テスト用の810が含まれている。
論文参考訳（メタデータ） (2025-09-20T20:41:32Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。