Fugu-MT 論文翻訳(概要): AI-assisted coding: Experiments with GPT-4

論文の概要: AI-assisted coding: Experiments with GPT-4

arxiv url: http://arxiv.org/abs/2304.13187v1
Date: Tue, 25 Apr 2023 22:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-27 16:03:26.887404
Title: AI-assisted coding: Experiments with GPT-4
Title（参考訳）: AI支援コーディング: GPT-4による実験
Authors: Russell A Poldrack, Thomas Lu, and Ga\v{s}per Begu\v{s}
Abstract要約: GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
参考スコア（独自算出の注目度）: 0.22366638308792727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence (AI) tools based on large language models have acheived human-level performance on some computer programming tasks. We report several experiments using GPT-4 to generate computer code. These experiments demonstrate that AI code generation using the current generation of tools, while powerful, requires substantial human validation to ensure accurate performance. We also demonstrate that GPT-4 refactoring of existing code can significantly improve that code along several established metrics for code quality, and we show that GPT-4 can generate tests with substantial coverage, but that many of the tests fail when applied to the associated code. These findings suggest that while AI coding tools are very powerful, they still require humans in the loop to ensure validity and accuracy of the results.
Abstract（参考訳）: 大規模言語モデルに基づく人工知能(AI)ツールは、いくつかのコンピュータプログラミングタスクにおいて人間レベルのパフォーマンスを高めている。 GPT-4を用いてコンピュータコードを生成する実験をいくつか報告する。これらの実験は、現在の世代のツールを使用したAIコード生成が強力であるにも関わらず、正確なパフォーマンスを保証するためには、人間による検証がかなり必要であることを実証している。また,既存のコードに対する GPT-4 のリファクタリングは,コード品質の確立した指標に沿ってコードを大幅に改善できることを示すとともに,GPT-4 がかなりのカバレッジでテストを生成することができることを示した。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。

関連論文リスト

Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Comparing Human and LLM Generated Code: The Jury is Still Out! [8.456554883523472]
大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。 Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
論文参考訳（メタデータ） (2025-01-28T11:11:36Z)
A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT [0.0]
本研究は,LeetCode ユーザによる Python プログラムのソフトウェア品質と GPT-4o によるソフトウェア品質を比較し,方法論的アプローチを採用する。この結果から, GPT-4oはコード品質, 可理解性, 実行時において, 限られたスケールでコードを生成する場合に, かなりの障害を生じさせないことが示唆された。
論文参考訳（メタデータ） (2025-01-07T09:15:25Z)
An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文参考訳（メタデータ） (2024-11-06T22:48:18Z)
Disrupting Test Development with AI Assistants [1.024113475677323]
GitHub Copilot、ChatGPT、TabnineなどのジェネレーティブAI支援コーディングツールは、ソフトウェア開発を大きく変えた。本稿では、これらのイノベーションが生産性とソフトウェア開発のメトリクスにどのように影響するかを分析する。
論文参考訳（メタデータ） (2024-11-04T17:52:40Z)
Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。 10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文参考訳（メタデータ） (2024-06-16T19:11:15Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文参考訳（メタデータ） (2024-03-06T19:51:26Z)
OpenAi's GPT4 as coding assistant [0.0]
GPT4はOpenaiから最も強力な大規模言語モデルと見なされている。本稿では,コーディングアシスタントとしてのGPT3.5とGPT4について検討する。
論文参考訳（メタデータ） (2023-09-22T09:31:39Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)
Aligning Offline Metrics and Human Judgments of Value for Code Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文参考訳（メタデータ） (2022-10-29T05:03:28Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。