論文の概要: A Large-Scale Comprehensive Measurement of AI-Generated Code in Real-World Repositories A Large-Scale Comprehensive Measurement of AI-Generated Code in Real-World Repositories
- arxiv url: http://arxiv.org/abs/2603.27130v1
- Date: Sat, 28 Mar 2026 04:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.800383
- Title: A Large-Scale Comprehensive Measurement of AI-Generated Code in Real-World Repositories A Large-Scale Comprehensive Measurement of AI-Generated Code in Real-World Repositories
- Title(参考訳): 実世界のリポジトリにおけるAI生成コードの大規模包括的測定 : 実世界のリポジトリにおけるAI生成コードの大規模包括的測定
- Authors: Tianhao Mao, Dongfang Zhao, Haixu Tang, Xiaofeng Wang, Hang Zhang,
- Abstract要約: 本稿では,実世界のレポジトリにおけるAI生成コードの大規模な実証的研究について述べる。
我々の結果は、AIが生成するコードと人間が書いたコードとがどのように違うかについての新しい洞察を提供する。
- 参考スコア(独自算出の注目度): 11.883159173351743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly transforming software engineering by enabling developers to generate code ranging from small snippets to entire projects. As AI-generated code becomes increasingly integrated into real-world systems, understanding its characteristics and impact is critical. However, prior work primarily focuses on small-scale, controlled evaluations and lacks comprehensive analysis in real-world settings. In this paper, we present a large-scale empirical study of AI-generated code in real-world repositories. We analyze both code-level metrics (\eg complexity, structure, and defect-related indicators) and commit-level characteristics (\eg commit size, frequency, and post-commit stability). To enable this study, we develop heuristic filter with LLM classification to identify AI-generated code and construct a large dataset. Our results provide new insights into how AI-generated code differs from human-written code and how AI assistance influences development practices. These findings contribute to a deeper understanding of the practical implications of AI-assisted programming.
- Abstract(参考訳): 大規模言語モデル(LLM)は,小さなスニペットからプロジェクト全体に至るまで,開発者がコードを生成することによって,ソフトウェアエンジニアリングを急速に変革している。
AI生成されたコードが現実世界のシステムにますます統合されるにつれて、その特性と影響を理解することが重要である。
しかし、以前の研究は主に小規模で制御された評価に焦点を当てており、現実の環境での包括的な分析が欠如している。
本稿では,実世界のレポジトリにおけるAI生成コードの大規模な実証的研究について述べる。
コードレベルのメトリクス(複雑性、構造、欠陥関連指標)とコミットレベルの特性(コミットサイズ、頻度、コミット後の安定性)の両方を分析します。
本研究では,LLM分類を用いたヒューリスティックフィルタを開発し,AI生成コードの同定と大規模データセットの構築を行う。
我々の結果は、AIが生成するコードと人間が書いたコードとがどのように異なるか、そしてAIアシストが開発プラクティスにどのように影響するか、という新たな洞察を提供する。
これらの知見は,AI支援プログラミングの実践的意義の理解に寄与する。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Embodied AI: From LLMs to World Models [65.68972714346909]
人工知能(AI)は、人工知能(AGI)を実現するためのインテリジェントシステムパラダイムである。
近年のLarge Language Models(LLMs)とWorld Models(WMs)のブレークスルーは、AIを具現化する上で大きな注目を集めている。
論文 参考訳(メタデータ) (2025-09-24T11:37:48Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。