論文の概要: AI-assisted coding: Experiments with GPT-4
- arxiv url: http://arxiv.org/abs/2304.13187v1
- Date: Tue, 25 Apr 2023 22:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:03:26.887404
- Title: AI-assisted coding: Experiments with GPT-4
- Title(参考訳): AI支援コーディング: GPT-4による実験
- Authors: Russell A Poldrack, Thomas Lu, and Ga\v{s}per Begu\v{s}
- Abstract要約: GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
- 参考スコア(独自算出の注目度): 0.22366638308792727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) tools based on large language models have
acheived human-level performance on some computer programming tasks. We report
several experiments using GPT-4 to generate computer code. These experiments
demonstrate that AI code generation using the current generation of tools,
while powerful, requires substantial human validation to ensure accurate
performance. We also demonstrate that GPT-4 refactoring of existing code can
significantly improve that code along several established metrics for code
quality, and we show that GPT-4 can generate tests with substantial coverage,
but that many of the tests fail when applied to the associated code. These
findings suggest that while AI coding tools are very powerful, they still
require humans in the loop to ensure validity and accuracy of the results.
- Abstract(参考訳): 大規模言語モデルに基づく人工知能(AI)ツールは、いくつかのコンピュータプログラミングタスクにおいて人間レベルのパフォーマンスを高めている。
GPT-4を用いてコンピュータコードを生成する実験をいくつか報告する。
これらの実験は、現在の世代のツールを使用したAIコード生成が強力であるにも関わらず、正確なパフォーマンスを保証するためには、人間による検証がかなり必要であることを実証している。
また,既存のコードに対する GPT-4 のリファクタリングは,コード品質の確立した指標に沿ってコードを大幅に改善できることを示すとともに,GPT-4 がかなりのカバレッジでテストを生成することができることを示した。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
関連論文リスト
- Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - A systematic evaluation of large language models for generating
programming code [0.0]
GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。
この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
論文 参考訳(メタデータ) (2024-03-01T14:43:06Z) - OpenAi's GPT4 as coding assistant [0.0]
GPT4はOpenaiから最も強力な大規模言語モデルと見なされている。
本稿では,コーディングアシスタントとしてのGPT3.5とGPT4について検討する。
論文 参考訳(メタデータ) (2023-09-22T09:31:39Z) - Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with
Code-based Self-Verification [40.83776920225375]
OpenAIのGPT-4の最新バージョンは、GPT-4 Code Interpreterと呼ばれ、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。
新規かつ効果的なUlinecode-based ulineself-ulineverification(CSV)を提案する。
我々はMATHデータセット textbf (53.9% $to 84.3%) で印象的なゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-08-15T17:58:45Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Aligning Offline Metrics and Human Judgments of Value for Code
Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。
本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文 参考訳(メタデータ) (2022-10-29T05:03:28Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。