Fugu-MT 論文翻訳(概要): WildCode: An Empirical Analysis of Code Generated by ChatGPT

論文の概要: WildCode: An Empirical Analysis of Code Generated by ChatGPT

arxiv url: http://arxiv.org/abs/2512.04259v1
Date: Wed, 03 Dec 2025 20:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:45.876082
Title: WildCode: An Empirical Analysis of Code Generated by ChatGPT
Title（参考訳）: WildCode: ChatGPTが生成するコードの実証分析
Authors: Kobra Khanmohammadi, Pooria Roy, Raphael Khoury, Abdelwahab Hamou-Lhadj, Wilfried Patrick Konan,
Abstract要約: 我々はChatGPTが生成したコードについて、正確性とセキュリティの両方について評価する。 LLMの生成を依頼するコードのセキュリティ機能について,ユーザがほとんど好奇心を示さないことが分かりました。
参考スコア（独自算出の注目度）: 3.2024225749499227
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: LLM models are increasingly used to generate code, but the quality and security of this code are often uncertain. Several recent studies have raised alarm bells, indicating that such AI-generated code may be particularly vulnerable to cyberattacks. However, most of these studies rely on code that is generated specifically for the study, which raises questions about the realism of such experiments. In this study, we perform a large-scale empirical analysis of real-life code generated by ChatGPT. We evaluate code generated by ChatGPT both with respect to correctness and security and delve into the intentions of users who request code from the model. Our research confirms previous studies that used synthetic queries and yielded evidence that LLM-generated code is often inadequate with respect to security. We also find that users exhibit little curiosity about the security features of the code they ask LLMs to generate, as evidenced by their lack of queries on this topic.
Abstract（参考訳）: LLMモデルはますますコード生成に使われているが、このコードの品質とセキュリティはしばしば不確実である。最近のいくつかの研究は、このようなAI生成コードが特にサイバー攻撃に弱いことを示唆する警告鐘を鳴らしている。しかしながら、これらの研究の多くは、研究のために特別に生成されたコードに依存しており、そのような実験の現実性に関する疑問を提起している。本研究では,ChatGPTによって生成された実生活コードの大規模解析を行う。また,ChatGPTが生成したコードを,正当性とセキュリティの両方に関して評価し,モデルからコードを要求するユーザの意図を探索する。我々の研究は、合成クエリを使用し、LLM生成コードがセキュリティに関してしばしば不十分であることを示す証拠を得た以前の研究を裏付けている。また、このトピックに関するクエリの欠如が証明されているように、LLMに生成するように要求するコードのセキュリティ機能について、ユーザはほとんど好奇心を示していないこともわかりました。

関連論文リスト

LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Language Models [3.82562358840301]
本研究は,大規模言語モデル(LLM)のセキュリティを検証し,評価することに焦点を当てる。コード生成に10種類のLCMを使用し、静的解析により出力を分析した。 AI生成コードに存在する共通弱さ(Common Weaknession, CWE)の量について検討する。
論文参考訳（メタデータ） (2025-11-24T10:31:53Z)
A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code [49.09545217453401]
Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。 PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
論文参考訳（メタデータ） (2025-11-19T19:18:28Z)
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文参考訳（メタデータ） (2025-08-25T15:11:11Z)
CodeRAG: Supportive Code Retrieval on Bigraph for Real-World Code Generation [69.684886175768]
大規模言語モデル(LLM)は、自動コード生成において有望なパフォーマンスを示している。本稿では,検索拡張コード生成フレームワークであるCodeRAGを提案する。実験によると、CodeRAGはRAGのシナリオと比較して大幅に改善されている。
論文参考訳（メタデータ） (2025-04-14T09:51:23Z)
A Comprehensive Study of LLM Secure Code Generation [19.82291066720634]
これまでの研究は主に、生成されたコードの脆弱性を検出するために、単一の静的アナライザであるCodeQLに依存していた。セキュリティ検査と機能検証の両方を同一生成コードに適用し、これら2つの側面をまとめて評価する。我々の研究は、既存の技術が多くの場合、生成したコードの機能を損なうことにより、セキュリティが向上することを示した。
論文参考訳（メタデータ） (2025-03-18T20:12:50Z)
Helping LLMs Improve Code Generation Using Feedback from Testing and Static Analysis [3.892345568697058]
大規模言語モデル(LLM)は人工知能分野における最も有望な発展の1つである。開発者は定期的にLCMにコードスニペットの生成を依頼し、生産性の向上に加えて、オーナシップ、プライバシ、正確性、セキュリティ問題も導入する。以前の作業では、商用のLLMによって生成されたコードが、脆弱性やバグ、コードの臭いなど、安全でないことが強調されていた。
論文参考訳（メタデータ） (2024-12-19T13:34:14Z)
Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation [2.793781561647737]
人書きコードとLLM生成コードのセキュリティと品質を比較した。 LLMは、必要な機能を実装するのに失敗する間違ったコードを生成することができることがわかった。 Flukeingによると、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすい。
論文参考訳（メタデータ） (2024-09-27T23:41:51Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-06-18T11:29:34Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文参考訳（メタデータ） (2024-04-30T23:56:38Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文参考訳（メタデータ） (2023-08-20T18:36:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。