Fugu-MT 論文翻訳(概要): No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT

論文の概要: No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT

arxiv url: http://arxiv.org/abs/2308.04838v2
Date: Sat, 13 Apr 2024 04:58:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 23:57:12.076005
Title: No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT
Title（参考訳）: 指をいじる必要がない? ChatGPTによるコード生成の品質評価
Authors: Zhijie Liu, Yutian Tang, Xiapu Luo, Yuming Zhou, Liang Feng Zhang,
Abstract要約: 本稿では,ChatGPTを用いたコード生成の質について検討する。私たちは5つの言語(C、C++、Java、Python、JavaScript)で728のアルゴリズム問題と、コード生成タスクの54のコードシナリオを持つ18のCWEを活用しています。この結果から,ChatGPTベースのコード生成に生じる潜在的な問題や限界が明らかになった。
参考スコア（独自算出の注目度）: 28.68768157452352
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities across various NLP tasks. Additionally, LLMs are also highly valuable in supporting software engineering tasks, particularly in the field of code generation. Automatic code generation is a process of automatically generating source code or executable code based on given specifications or requirements, improving developer productivity. In this study, we perform a systematic empirical assessment to the quality of code generation using ChatGPT. We leverage 728 algorithm problems in five languages (i.e., C, C++, Java, Python, and JavaScript) and 18 CWEs with 54 code scenarios for the code generation task. Our evaluation encompasses a comprehensive analysis of code snippets generated by ChatGPT, focusing on three critical aspects: correctness, complexity, and security. We also specifically investigate ChatGPT's ability to engage in multi-round fixing process (i.e., ChatGPT's dialog ability) of facilitating code generation. By delving into the generated code and examining the experimental results, this work provides valuable insights into the performance of ChatGPT in tackling code generation tasks over the three critical aspects. Overall, our findings uncover potential issues and limitations that arise in the ChatGPT-based code generation and lay the groundwork for improving AI and LLM-based code generation techniques.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる印象的な機能を示している。加えて、LLMは、特にコード生成の分野で、ソフトウェアエンジニアリングタスクをサポートする上でも非常に貴重である。自動コード生成は、所定の仕様や要求に基づいてソースコードや実行可能なコードを自動的に生成し、開発者の生産性を向上させるプロセスである。本研究では,ChatGPTを用いて,コード生成の質を定量的に評価する。私たちは5つの言語(C、C++、Java、Python、JavaScript)で728のアルゴリズム問題と、コード生成タスクの54のコードシナリオを持つ18のCWEを活用しています。評価では,ChatGPTが生成したコードスニペットを包括的に分析し,正確性,複雑性,セキュリティという3つの重要な側面に注目した。また、コード生成を容易にするChatGPTのマルチラウンド固定プロセス(すなわち、ChatGPTのダイアログ能力)に関わるChatGPTの機能についても詳細に検討する。生成されたコードを掘り下げて実験結果を調べることで、この研究は、3つの重要な側面でコード生成タスクに取り組む際のChatGPTのパフォーマンスに関する貴重な洞察を提供する。全体として、ChatGPTベースのコード生成で生じる潜在的な問題や制限を明らかにし、AIとLLMベースのコード生成技術を改善するための基盤となる。

関連論文リスト

CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
CodeRAG: Supportive Code Retrieval on Bigraph for Real-World Code Generation [69.684886175768]
大規模言語モデル(LLM)は、自動コード生成において有望なパフォーマンスを示している。本稿では,検索拡張コード生成フレームワークであるCodeRAGを提案する。実験によると、CodeRAGはRAGのシナリオと比較して大幅に改善されている。
論文参考訳（メタデータ） (2025-04-14T09:51:23Z)
Distinguishing LLM-generated from Human-written Code by Contrastive Learning [5.553326595990857]
大規模言語モデル(LLM)は、様々なタスクに対して高品質なコンテンツを生成する能力があることが証明されたため、大きな注目を集めている。ニュース、教育、ソフトウェア工学など、さまざまな分野における潜在的なリスクに対する懸念が高まっている。コントラスト学習フレームワークとUniXcoderで構築したセマンティックエンコーダに基づく,新しいChatGPT生成コード検出器CodeGPTSensorを提案する。
論文参考訳（メタデータ） (2024-11-07T13:39:14Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
Exploring the Potential of ChatGPT in Automated Code Refinement: An Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文参考訳（メタデータ） (2023-09-15T07:41:33Z)
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:51Z)
Refining ChatGPT-Generated Code: Characterizing and Mitigating Code Quality Issues [17.7880460531813]
我々は2つの人気のあるプログラミング言語で実装された4,066個のChatGPT生成コードの品質を体系的に研究した。本稿では,ChatGPT生成コードの品質に関する潜在的な問題を同定し,特徴付ける。 ChatGPTはこれらの課題に部分的に対処でき、コード品質を20%以上改善していますが、まだ改善の余地と機会があります。
論文参考訳（メタデータ） (2023-07-24T08:14:22Z)
Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation [9.904734169174356]
本稿では,コード生成のためのBrainstormフレームワークを紹介する。ブレインストーミングのステップを利用して、問題に関するさまざまな思考を生成し、選択する。 Brainstormは、LLMが競合レベルのプログラミング問題を解決する能力を大幅に強化する。
論文参考訳（メタデータ） (2023-05-18T03:32:54Z)
Improving ChatGPT Prompt for Code Generation [13.303599826870705]
OpenAIの言語モデルChatGPTは、幅広いテキスト入力に対するヒューマンライクな応答を生成する強力なツールとして登場した。テキスト・ツー・コード生成とコード・ツー・コード生成を含む2つのコード生成タスクにおけるChatGPTの機能を評価する。その結果,ChatGPTをガイドするプロンプトを慎重に設計することで,生成性能を大幅に向上できることがわかった。
論文参考訳（メタデータ） (2023-05-15T05:37:33Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。