論文の概要: Can Large Language Models Write Parallel Code?
- arxiv url: http://arxiv.org/abs/2401.12554v1
- Date: Tue, 23 Jan 2024 08:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:33:20.551348
- Title: Can Large Language Models Write Parallel Code?
- Title(参考訳): 大規模言語モデルは並列コードを書くことができるか?
- Authors: Daniel Nichols, Joshua H. Davis, Zhaojun Xie, Arjun Rajaram, Abhinav
Bhatele
- Abstract要約: 大規模言語モデル(Large Language Models)は、ソフトウェア開発において、ますます人気のあるツールである。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
並列コードを生成する言語モデルの性能を評価するための420のタスクからなるベンチマークPCGBenchを提案する。
- 参考スコア(独自算出の注目度): 0.5705145870944511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are becoming an increasingly popular tool for software
development. Their ability to model and generate source code has been
demonstrated in a variety of contexts, including code completion,
summarization, translation, and lookup. However, they often struggle to
generate code for more complex tasks. In this paper, we explore the ability of
state-of-the-art language models to generate parallel code. We propose a
benchmark, PCGBench, consisting of a set of 420 tasks for evaluating the
ability of language models to generate parallel code, and we evaluate the
performance of several state-of-the-art open- and closed-source language models
on these tasks. We introduce novel metrics for comparing parallel code
generation performance and use them to explore how well each LLM performs on
various parallel programming models and computational problem types.
- Abstract(参考訳): 大規模言語モデルは、ソフトウェア開発の人気のツールになりつつある。
ソースコードをモデル化して生成する能力は、コード補完、要約、翻訳、ルックアップなど、さまざまなコンテキストで実証されている。
しかし、より複雑なタスクのためにコードを生成するのに苦労することが多い。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
我々は,並列コードを生成する言語モデルの能力を評価するための420タスクからなるベンチマーク pcgbench を提案し,これらのタスクにおける最先端のオープンソースおよびクローズドソース言語モデルの性能評価を行った。
並列コード生成性能を比較するための新しいメトリクスを導入し、それぞれのLLMが様々な並列プログラミングモデルや計算問題タイプでどのように機能するかを検討する。
関連論文リスト
- IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators [55.40713784611711]
本研究では,コンパイラ中間表現を活用することで,Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Modeling Parallel Programs using Large Language Models [2.906142380269856]
大規模言語モデル(LLM)が,高性能および科学的コードに特有のタスクにどのように適用できるかを示す。
並列コードで訓練された新しいモデルHPC-Coderを導入する。
論文 参考訳(メタデータ) (2023-06-29T19:44:55Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - A Scalable and Extensible Approach to Benchmarking NL2Code for 18
Programming Languages [1.6312827172331896]
我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。
我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。
MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
論文 参考訳(メタデータ) (2022-08-17T11:16:52Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。