Fugu-MT 論文翻訳(概要): Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation

論文の概要: Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation

arxiv url: http://arxiv.org/abs/2308.10335v5
Date: Sat, 27 Jan 2024 05:49:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:22:27.283317
Title: Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation
Title（参考訳）: ChatGPTはStackOverflowを置き換えることができるか? 大規模言語モデルコード生成のロバスト性と信頼性に関する研究
Authors: Li Zhong, Zilong Wang
Abstract要約: 大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
参考スコア（独自算出の注目度）: 8.575560293086289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the large language models (LLMs) have shown extraordinary ability in understanding natural language and generating programming code. It has been a common practice of software engineers to consult LLMs when encountering coding questions. Although efforts have been made to avoid syntax errors and align the code with the intended semantics, the reliability and robustness of the code generationfrom LLMs have not yet been thoroughly studied. The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development. The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes. To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. Therefore, they could hardly tell the misuse in the code generated by LLMs, which further facilitates the incorrect code applied in real-world software. Existing code evaluation benchmark and datasets focus on crafting small tasks such as programming questions in coding interviews, which however deviates from the problem that developers would ask LLM for real-world coding help. To fill the missing piece, in this work, we propose a dataset RobustAPI for evaluating the reliability and robustness of code generated by LLMs. We collect 1208 coding questions from StackOverflow on 24 representative Java APIs. We summarize thecommon misuse patterns of these APIs and evaluate them oncurrent popular LLMs. The evaluation results show that evenfor GPT-4, 62% of the generated code contains API misuses,which would cause unexpected consequences if the code isintroduced into real-world software.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) は,自然言語の理解とプログラミングコード生成に極めて優れた能力を示している。コーディング問題に遭遇する際、LLMに相談するのは、ソフトウェアエンジニアがよく行うプラクティスである。構文エラーを回避し、コードを意図した意味と整合させる努力がなされているが、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていない。実行可能なコードは、特に現実世界のソフトウェア開発のコンテキストにおいて、信頼性が高く堅牢なコードと等価ではない。生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。さらに悪いことに、llmコード生成サービスのユーザは、実際にはこれらのコードに対して最も脆弱な開発者であり、正しいように思える -- 彼らは常にllmがコードを生成するapiに精通していない初心者開発者である。したがって、LLMが生成したコードの誤用をほとんど知ることができず、現実世界のソフトウェアに適用される誤ったコードをさらに容易にする。既存のコード評価ベンチマークとデータセットは、コーディング面接のプログラミング質問のような小さなタスクの作成にフォーカスしているが、これは開発者がllmに実際のコーディング支援を求める問題から逸脱している。そこで本研究では,LLMが生成するコードの信頼性とロバスト性を評価するためのデータセットRobostAPIを提案する。 StackOverflowから24の代表的なJava APIで1208のコーディング質問を収集します。これらのAPIの一般的な誤用パターンを要約し,現在普及しているLCMを評価した。 GPT-4では,生成コードの62%にAPI誤用があり,実際のソフトウェアにコードが導入されると予期せぬ結果が生じる。

関連論文リスト

CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS [52.483888557864326]
APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。 APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
論文参考訳（メタデータ） (2025-11-29T08:13:54Z)
The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion [4.215010577170175]
コードパープレキシティの測定により,コード生成時のLLM(Large Language Models)の信頼性を評価する。強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。 Perlは難易度が普遍的に高いが、Javaは低いように見える。
論文参考訳（メタデータ） (2025-08-22T06:51:13Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文参考訳（メタデータ） (2025-04-06T05:59:29Z)
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文参考訳（メタデータ） (2024-11-03T02:47:03Z)
Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation [2.793781561647737]
人書きコードとLLM生成コードのセキュリティと品質を比較した。 LLMは、必要な機能を実装するのに失敗する間違ったコードを生成することができることがわかった。 Flukeingによると、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすい。
論文参考訳（メタデータ） (2024-09-27T23:41:51Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
Bugs in Large Language Models Generated Code: An Empirical Study [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。人間書きのコードと同様、LLM生成コードはバグを起こしやすい。本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文参考訳（メタデータ） (2024-03-13T20:12:01Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code [0.7252027234425334]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。本稿では,LLM生成コミュニケータを用いて,問題記述や生成されたコードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
論文参考訳（メタデータ） (2023-08-25T17:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。