論文の概要: When is Generated Code Difficult to Comprehend? Assessing AI Agent Python Code Proficiency in the Wild
- arxiv url: http://arxiv.org/abs/2604.00299v1
- Date: Tue, 31 Mar 2026 22:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.754639
- Title: When is Generated Code Difficult to Comprehend? Assessing AI Agent Python Code Proficiency in the Wild
- Title(参考訳): AIエージェントのPythonコード習熟度を評価する
- Authors: Nanthit Temkulkiat, Chaiyong Ragkhitwetsagul, Morakot Choetkiertikul, Ruksit Rojpaisarnkit, Raula Gaikovina Kula,
- Abstract要約: 本研究では,開発者がコードを維持するために必要なスキルレベルを決定するために,AIエージェントのコード習熟度について検討する。
我々は、3つの異なるAIエージェントによって生成される5,027のPythonファイルを含む591のプルリクエストをマイニングした。
- 参考スコア(独自算出の注目度): 1.5432419759274403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of AI coding agents is fundamentally shifting software developers' roles from code authors to code reviewers. While developers spend a significant portion of their time reading and comprehending code, the linguistic proficiency and complexity of the Python code generated by these agents remain largely unexplored. This study investigates the code proficiency of AI agents to determine the skill level required for developers to maintain their code. Leveraging the AIDev dataset, we mined 591 pull requests containing 5,027 Python files generated by three distinct AI agents and employed pycefr, a static analysis tool that maps Python constructs to six proficiency levels, ranging from A1 (Basic) to C2 (Mastery), to analyze the code. Our results reveal that: AI agents predominantly generate Basic-level code, with over 90% of constructs falling into the A1 and A2 categories, and less than 1% classified as Mastery (C2); AI agents' and humans' pull requests share a broadly similar proficiency profile; High-proficiency code by AI agents are from feature addition and bug fixing tasks. These findings suggest that while AI-generated code is generally accessible to developers with basic Python skills, specific tasks may require advanced proficiency to review and maintain complex, agent-generated constructs.
- Abstract(参考訳): AIコーディングエージェントの急速な採用は、ソフトウェア開発者の役割をコード作者からコードレビュアーに根本的にシフトさせている。
開発者はコードの読み書きに多くの時間を費やしていますが、これらのエージェントによって生成されたPythonコードの言語的習熟度と複雑さは、まだ明らかにされていません。
本研究では,開発者がコードを維持するために必要なスキルレベルを決定するために,AIエージェントのコード習熟度について検討する。
AIDevデータセットを活用すると、3つの異なるAIエージェントによって生成された5,027のPythonファイルを含む591のプルリクエストをマイニングし、PythonのコンストラクトをA1(Basic)からC2(Mastery)まで6つの習熟レベルにマップする静的解析ツールpycefrを使用してコードを解析しました。
AIエージェントは、主に基本レベルのコードを生成し、A1とA2のカテゴリに90%以上の構造を持ち、マスタ(C2)に分類された1%未満、AIエージェントと人間のプルリクエストは、幅広い習熟度プロファイルを共有し、AIエージェントによる高い習熟度コードは、機能追加とバグ修正タスクから得ている。
これらの結果は、AI生成コードは基本的なPythonスキルを持つ開発者に一般的にアクセス可能であるが、複雑なエージェント生成構造をレビューし、メンテナンスするためには、特定のタスクが高度な能力を必要とする可能性があることを示唆している。
関連論文リスト
- Mining Type Constructs Using Patterns in AI-Generated Code [1.2107297090229683]
AIが、型関連プログラミングタスクにおいて、人間より本質的に優れているかどうかはまだわからない。
TypeScriptプロジェクトのドメインで、これらの質問に答える最初の経験的分析を提示します。
驚くべきことに、これらすべての問題にもかかわらず、AgenticプルリクエストはTypeScriptの人間よりも1.8倍高い受け入れ率を持つ。
論文 参考訳(メタデータ) (2026-02-20T03:17:42Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality [0.0]
ソフトウェア開発におけるAIコーディングエージェントの急速な採用は、それらが生成するコードの品質と保守性に関する重要な疑問を提起している。
このデータマイニングの課題は、実世界のGitHubリポジトリからエージェントプルリクエストをキャプチャする、最初の大規模でオープンソースのデータセットであるAIDevに焦点を当てている。
私たちは364のメンテナンス性とセキュリティ関連のビルドの臭いを、さまざまな重大度レベルにわたって特定しました。
論文 参考訳(メタデータ) (2026-01-23T15:40:28Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection [0.0]
AIGCodeSetは2.828のAI生成コードと4.755の人手によるPythonコードで構成される。
ベイズ分類器が他のモデルより優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2024-12-21T11:53:49Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。