論文の概要: ParaCodex: A Profiling-Guided Autonomous Coding Agent for Reliable Parallel Code Generation and Translation
- arxiv url: http://arxiv.org/abs/2601.04327v1
- Date: Wed, 07 Jan 2026 19:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.880913
- Title: ParaCodex: A Profiling-Guided Autonomous Coding Agent for Reliable Parallel Code Generation and Translation
- Title(参考訳): ParaCodex: 信頼性の高い並列コード生成と翻訳のためのプロファイリングガイド付き自律符号化エージェント
- Authors: Erel Kaplan, Tomer Bitan, Lian Ghrayeb, Le Chen, Tom Yotam, Niranjan Hasabnis, Gal Oren,
- Abstract要約: ParaCodexは、Codexベースのエージェントを自律的なOpenMPオフロードシステムに変換するHPCエンジニアリングワークフローである。
我々は、HeCBench, Rodinia, NAS上で、シリアルCPUカーネルからOpenMPオフロードカーネルへの変換を評価する。
我々は HeCBench 上の 3x と Rodinia 上の 5x の幾何平均スピードアップを達成し、全てのスイートにおいてゼロショットコーデックスベースラインを上回ります。
- 参考スコア(独自算出の注目度): 5.103450268268085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel programming is central to HPC and AI, but producing code that is correct and fast remains challenging, especially for OpenMP GPU offload, where data movement and tuning dominate. Autonomous coding agents can compile, test, and profile on target hardware, but outputs are brittle without domain scaffolding. We present ParaCodex, an HPC-engineer workflow that turns a Codex-based agent into an autonomous OpenMP GPU offload system using staged hotspot analysis, explicit data planning, correctness gating, and profiling-guided refinement. We evaluate translation from serial CPU kernels to OpenMP GPU offload kernels on HeCBench, Rodinia, and NAS. After excluding five kernels, ParaCodex succeeded on all 31 valid kernels. The generated kernels improved GPU time over reference OpenMP implementations in 25/31 cases, achieving geometric-mean speedups of 3x on HeCBench and 5x on Rodinia, and outperforming a zero-shot Codex baseline on all suites. We also evaluate CUDA to OpenMP offload translation on ParEval, where ParaCodex maintains high compilation and validation rates in code-only and end-to-end settings.
- Abstract(参考訳): 並列プログラミングはHPCとAIの中心であるが、特にデータ移動とチューニングが支配的なOpenMP GPUオフロードにおいて、正確で高速なコードを生成することは依然として難しい。
自動コーディングエージェントは、ターゲットハードウェア上でコンパイル、テスト、プロファイルを行うことができるが、出力はドメインの足場なしで不安定である。
我々は、Codexベースのエージェントをステージドホットスポット分析、明示的なデータ計画、正当性ゲーティング、プロファイリング誘導による洗練を使用して、自律的なOpenMP GPUオフロードシステムに変換するHPCエンジニアリングワークフローであるParaCodexを提案する。
我々は、HeCBench, Rodinia, NAS上で、シリアルCPUカーネルからOpenMP GPUオフロードカーネルへの変換を評価する。
5つのカーネルを除外した後、ParaCodexは31の有効なカーネル全てを成功させた。
生成されたカーネルは、25/31のケースでOpenMP実装よりもGPU時間を改善し、HeCBenchでは3倍、Rodiniaでは5倍の幾何平均高速化を実現し、すべてのスイートでゼロショットのCodexベースラインを上回った。
また、CUDAからOpenMPへのオフロード変換をParEval上で評価し、ParaCodexはコードのみの設定とエンドツーエンドの設定で高いコンパイル率とバリデーション率を維持しています。
関連論文リスト
- CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities [16.660841429852333]
本稿では、コネクショニスト時間分類(CTC)モデルのために設計された、完全ベースのビームデコーディングのためのオープンソースのFlexCTCツールキットを提案する。
PythonとPyTorchで完全に開発され、高速でユーザフレンドリで、従来のC++やWFSTベースのGPUに代わるものを提供する。
また、GPUによるN-gram言語モデルの融合やフレーズレベルの強化など、高度なコンテキスト化技術もサポートしている。
論文 参考訳(メタデータ) (2025-08-10T12:15:57Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - Cheddar: A Swift Fully Homomorphic Encryption Library Designed for GPU Architectures [2.613335121517245]
完全なホモモルフィック暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にすることによって、クラウドコンピューティングをプライバシの懸念から解放する。
我々は、GPUのための高性能なFHEライブラリであるCheddarを紹介し、従来のGPU実装よりも大幅に高速化した。
論文 参考訳(メタデータ) (2024-07-17T23:49:18Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。