論文の概要: Evaluating AI-generated code for C++, Fortran, Go, Java, Julia, Matlab, Python, R, and Rust
- arxiv url: http://arxiv.org/abs/2405.13101v1
- Date: Tue, 21 May 2024 17:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:12:17.813486
- Title: Evaluating AI-generated code for C++, Fortran, Go, Java, Julia, Matlab, Python, R, and Rust
- Title(参考訳): C++、Fortran、Go、Java、Julia、Matlab、Python、R、Rust用のAI生成コードの評価
- Authors: Patrick Diehl, Noujoud Nader, Steve Brandt, Hartmut Kaiser,
- Abstract要約: 本研究では,ChatGPTバージョン3.5および4の多種多様なプログラミング言語におけるコード生成能力を評価する。
我々はChatGPTに、単純な数値積分、共役勾配解法、並列1次元ステンシルに基づく熱方程式解法という3つの異なる符号を生成するよう依頼した。
分析の焦点は、コードのコンパイル、実行時のパフォーマンス、正確性でした。
- 参考スコア(独自算出の注目度): 0.1906498126334485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the capabilities of ChatGPT versions 3.5 and 4 in generating code across a diverse range of programming languages. Our objective is to assess the effectiveness of these AI models for generating scientific programs. To this end, we asked ChatGPT to generate three distinct codes: a simple numerical integration, a conjugate gradient solver, and a parallel 1D stencil-based heat equation solver. The focus of our analysis was on the compilation, runtime performance, and accuracy of the codes. While both versions of ChatGPT successfully created codes that compiled and ran (with some help), some languages were easier for the AI to use than others (possibly because of the size of the training sets used). Parallel codes -- even the simple example we chose to study here -- also difficult for the AI to generate correctly.
- Abstract(参考訳): 本研究では,ChatGPTバージョン3.5と4の多種多様なプログラミング言語におけるコード生成能力を評価する。
我々の目標は、これらのAIモデルが科学プログラムを生成するための有効性を評価することである。
そこで我々はChatGPTに,単純な数値積分,共役勾配解法,並列1次元ステンシル式熱方程式解法という3つの異なる符号を生成するよう依頼した。
分析の焦点は、コードのコンパイル、実行時のパフォーマンス、正確性でした。
どちらのバージョンのChatGPTも(多少の助けを借りて)コンパイルと実行に成功しているが、いくつかの言語はAIが他の言語よりも使いやすくなった(おそらくはトレーニングセットのサイズのため)。
並列コードは、私たちがここで研究した単純な例でさえも、AIが正しく生成することが難しい。
関連論文リスト
- Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - Recursive Visual Programming [53.76415744371285]
本稿では、生成ルーチンを単純化し、より効率的な問題解決を提供し、より複雑なデータ構造を管理するRecursive Visual Programming (RVP)を提案する。
本稿では,VSR,COVR,GQA,NextQAなどのベンチマークにおいて,RVPの有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T17:27:24Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Comparing Llama-2 and GPT-3 LLMs for HPC kernels generation [3.070523453466106]
我々は、オープンソースのLlama-2モデルを用いて、高性能な計算カーネルを生成することを評価する。
我々のゴールは、Llama-2と元のGPT-3ベースラインの精度を、同様の測定値を用いて比較することである。
論文 参考訳(メタデータ) (2023-09-12T01:19:54Z) - Evaluation of OpenAI Codex for HPC Parallel Programming Models Kernel
Generation [1.7646846505225735]
高性能コンピューティングにおける基本数値カーネル上でのAI支援生成能力の評価を行った。
生成したカーネルコードを様々な言語対応プログラミングモデルでテストする。
本稿では,各プロンプトに対して与えられた10のプロンプトに関する習熟度尺度を提案する。
論文 参考訳(メタデータ) (2023-06-27T00:11:31Z) - InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。
私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。
我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文 参考訳(メタデータ) (2023-06-26T17:59:50Z) - ChatGPT for Programming Numerical Methods [2.741266294612776]
ChatGPTは、OpenAI社によって最近リリースされた大きな言語モデルである。
計算アルゴリズムのプログラミングにおけるChatGPTの能力を初めて探求する。
論文 参考訳(メタデータ) (2023-03-21T12:18:17Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。