論文の概要: AutoParLLM: GNN-guided Context Generation for Zero-Shot Code Parallelization using LLMs
- arxiv url: http://arxiv.org/abs/2310.04047v3
- Date: Wed, 19 Feb 2025 04:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:04.008420
- Title: AutoParLLM: GNN-guided Context Generation for Zero-Shot Code Parallelization using LLMs
- Title(参考訳): AutoParLLM:LLMを用いたゼロショット符号並列化のためのGNN誘導コンテキスト生成
- Authors: Quazi Ishtiaque Mahmud, Ali TehraniJamsaz, Hung Phan, Le Chen, Mihai Capotă, Theodore Willke, Nesreen K. Ahmed, Ali Jannesari,
- Abstract要約: 我々の研究は、グラフニューラルネットワーク(GNN)からのガイダンスを用いて、効率的な並列コードを生成する新しい方法である ourtool を提案する。
ourtool xspace は最先端の LLM を NAS で19.9%、Rodinia ベンチマークで6.48% 改善し、並列コード生成のタスクに CodeBERTScore を使用する。
- 参考スコア(独自算出の注目度): 10.648304988994369
- License:
- Abstract: In-Context Learning (ICL) has been shown to be a powerful technique to augment the capabilities of LLMs for a diverse range of tasks. This work proposes \ourtool, a novel way to generate context using guidance from graph neural networks (GNNs) to generate efficient parallel codes. We evaluate \ourtool \xspace{} on $12$ applications from two well-known benchmark suites of parallel codes: NAS Parallel Benchmark and Rodinia Benchmark. Our results show that \ourtool \xspace{} improves the state-of-the-art LLMs (e.g., GPT-4) by 19.9\% in NAS and 6.48\% in Rodinia benchmark in terms of CodeBERTScore for the task of parallel code generation. Moreover, \ourtool \xspace{} improves the ability of the most powerful LLM to date, GPT-4, by achieving $\approx$17\% (on NAS benchmark) and $\approx$16\% (on Rodinia benchmark) better speedup. In addition, we propose \ourscore \xspace{} for evaluating the quality of the parallel code and show its effectiveness in evaluating parallel codes. \ourtool \xspace is available at https://github.com/quazirafi/AutoParLLM.git.
- Abstract(参考訳): In-Context Learning (ICL)は、多様なタスクに対してLLMの能力を増強する強力なテクニックであることが示されている。
この研究は、グラフニューラルネットワーク(GNN)からのガイダンスを使ってコンテキストを生成し、効率的な並列コードを生成する新しい方法である \ourtool を提案する。
NAS Parallel Benchmark と Rodinia Benchmark の2つのベンチマークスイートから,12ドルのアプリケーションに対して \ourtool \xspace{} を評価した。
この結果から, 並列コード生成タスクにおける CodeBERTScore を用いて, NAS の 19.9 % と Rodinia の 6.48 % で, 最先端の LLM (e g , GPT-4) を改良した。
さらに、$\approx$17\%(NASベンチマークでは)と$\approx$16\%(ロジニアベンチマークでは)の高速化によって、これまでで最も強力なLCMであるGPT-4の能力を向上する。
さらに、並列コードの品質を評価するための \ourscore \xspace{} を提案し、並列コードの評価の有効性を示す。
\ourtool \xspaceはhttps://github.com/quazirafi/AutoParLLM.gitで入手できる。
関連論文リスト
- LLM-Supported Natural Language to Bash Translation [3.944966059637878]
本稿では,コマンド実行とコマンド出力の評価を組み合わせた機能等価性を提案する。
解析,文脈内学習,重み付き学習,制約付き復号化により,NL2SHの精度が最大32%向上することを示した。
論文 参考訳(メタデータ) (2025-02-07T19:35:55Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices [18.81344021150902]
SpecExecは単純な並列デコード方式で、LLMファミリ向けのターゲットモデルイテレーション毎に最大20個のトークンを生成することができる。
我々は,RAMオフロードが4~6トークン/秒,量子化が4ビット,あるいは16ビット重みが2~3トークン/秒の一般GPU上で50B以上のパラメータLLMを推定した。
論文 参考訳(メタデータ) (2024-06-04T17:53:36Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter
Dataset [53.73316523766183]
我々は,emphOODパターンとemphOOVトークンの両方を扱えるロバストなセマンティックフレーム解析パイプラインを導入する。
また、E2Eアプリケーションを構築して、アルゴリズムの有効性をデモし、それが実際のアプリケーションで有用である理由を示す。
論文 参考訳(メタデータ) (2022-12-18T01:59:49Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。