論文の概要: ParEVO: Synthesizing Code for Irregular Data: High-Performance Parallelism through Agentic Evolution
- arxiv url: http://arxiv.org/abs/2603.02510v1
- Date: Tue, 03 Mar 2026 01:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.596001
- Title: ParEVO: Synthesizing Code for Irregular Data: High-Performance Parallelism through Agentic Evolution
- Title(参考訳): ParEVO:不規則データのためのコード合成:エージェント進化による高性能並列処理
- Authors: Liu Yang, Zeyu Nie, Andrew Liu, Felix Zou, Deniz Altinbüken, Amir Yazdanbakhsh, Quanquan C. Liu,
- Abstract要約: ParEVOは不規則データのための高性能並列アルゴリズムを合成するフレームワークである。
ParEvalベンチマークでは、ParEVOは平均106倍のスピードアップ、複雑な不規則グラフ問題に対する堅牢な13.6倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 13.109726609738749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition from sequential to parallel computing is essential for modern high-performance applications but is hindered by the steep learning curve of concurrent programming. This challenge is magnified for irregular data structures (such as sparse graphs, unbalanced trees, and non-uniform meshes) where static scheduling fails and data dependencies are unpredictable. Current Large Language Models (LLMs) often fail catastrophically on these tasks, generating code plagued by subtle race conditions, deadlocks, and sub-optimal scaling. We bridge this gap with ParEVO, a framework designed to synthesize high-performance parallel algorithms for irregular data. Our contributions include: (1) The Parlay-Instruct Corpus, a curated dataset of 13,820 tasks synthesized via a "Critic-Refine" pipeline that explicitly filters for empirically performant algorithms that effectively utilize Work-Span parallel primitives; (2) specialized DeepSeek, Qwen, and Gemini models fine-tuned to align probabilistic generation with the rigorous semantics of the ParlayLib library; and (3) an Evolutionary Coding Agent (ECA) that improves the "last mile" of correctness by iteratively repairing code using feedback from compilers, dynamic race detectors, and performance profilers. On the ParEval benchmark, ParEVO achieves an average 106x speedup (with a maximum of 1103x) across the suite, and a robust 13.6x speedup specifically on complex irregular graph problems, outperforming state-of-the-art commercial models. Furthermore, our evolutionary approach matches state-of-the-art expert human baselines, achieving up to a 4.1x speedup on specific highly-irregular kernels. Source code and datasets are available at https://github.com/WildAlg/ParEVO.
- Abstract(参考訳): 逐次コンピューティングから並列コンピューティングへの移行は、現代の高性能アプリケーションには不可欠であるが、並列プログラミングの急激な学習曲線によって妨げられている。
この課題は、静的なスケジューリングが失敗し、データの依存関係が予測不可能な不規則なデータ構造(スパースグラフ、アンバランスなツリー、非ユニフォームメッシュなど)に対して拡大される。
現在のLarge Language Models(LLM)は、これらのタスクで破滅的に失敗することが多く、微妙な競合条件、デッドロック、およびサブ最適化スケーリングに悩まされるコードを生成する。
このギャップを不規則データのための高性能並列アルゴリズムを合成するフレームワークであるParEVOで埋める。
例えば,(1)Parlay-Instruct Corpusは,ParlayLibライブラリの厳密なセマンティクスと確率的生成を調整するための特別なDeepSeek,Qwen,Geminiモデル,(3)コンパイラや動的レース検出器,パフォーマンスプロファイラからのフィードバックを用いて,コードの"ラストマイル"を反復的に改善する進化的符号化エージェント(ECA)などです。
ParEvalベンチマークでは、ParEVOはスイート全体の平均106倍のスピードアップ(最大1103倍)を達成するとともに、複雑な不規則グラフ問題に特化して堅牢な13.6倍のスピードアップを実現し、最先端の商用モデルを上回っている。
さらに、我々の進化的アプローチは最先端の専門家の人間のベースラインと一致し、特定の高度に不規則なカーネル上で最大4.1倍のスピードアップを達成する。
ソースコードとデータセットはhttps://github.com/WildAlg/ParEVO.comで入手できる。
関連論文リスト
- ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文 参考訳(メタデータ) (2025-11-24T18:55:59Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - ReLATE: Learning Efficient Sparse Encoding for High-Performance Tensor Decomposition [1.1681618004689642]
ReLATEは強化学習型適応テンソル符号化フレームワークである。
トレーニングサンプルをラベル付けすることなく、効率的なスパーステンソル表現を構築する。
幾何平均速度は1.4-1.46Xで、様々なスパーステンソルデータセットで専門家が設計したフォーマットを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-29T23:45:09Z) - Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis [0.0]
本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-08-18T21:58:18Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Speculative Automated Refactoring of Imperative Deep Learning Programs to Graph Execution [2.901209993197417]
成長を続けるデータセット、特にディープラーニング(DL)システムのサポートは不可欠である。
従来の遅延実行スタイルのDLコードはエラーを起こしやすく、直感的でなく、デバッグが難しい。
より自然なインペラティブなDLフレームワークは、熱心な実行を奨励しているが、実行時のパフォーマンスを犠牲にしている。
本稿では,命令型DL関数をグラフとして効果的かつ効率的に実行できるかどうかを開発者が判断する上で,自動シーケンシャルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-07T18:48:43Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。