論文の概要: Can We Trust the AI Pair Programmer? Copilot for API Misuse Detection and Correction
- arxiv url: http://arxiv.org/abs/2509.16795v1
- Date: Sat, 20 Sep 2025 19:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 15:02:20.649698
- Title: Can We Trust the AI Pair Programmer? Copilot for API Misuse Detection and Correction
- Title(参考訳): AIペアプログラマを信頼できますか? APIミス検出と修正のコパイロット
- Authors: Saikat Mondal, Chanchal K. Roy, Hong Wang, Juan Arguello, Samantha Mathan,
- Abstract要約: APIの誤用はセキュリティ上の脆弱性やシステム障害を導入し、メンテナンスコストを増大させる。
既存の検出アプローチは、開発後の運用を行う静的分析やマシンラーニングベースのツールに依存している。
この研究は、MUBenchを使用してAPI誤用を特定し修正するGitHub Copilotの有効性を評価する。
- 参考スコア(独自算出の注目度): 5.653894423049302
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: API misuse introduces security vulnerabilities, system failures, and increases maintenance costs, all of which remain critical challenges in software development. Existing detection approaches rely on static analysis or machine learning-based tools that operate post-development, which delays defect resolution. Delayed defect resolution can significantly increase the cost and complexity of maintenance and negatively impact software reliability and user trust. AI-powered code assistants, such as GitHub Copilot, offer the potential for real-time API misuse detection within development environments. This study evaluates GitHub Copilot's effectiveness in identifying and correcting API misuse using MUBench, which provides a curated benchmark of misuse cases. We construct 740 misuse examples, manually and via AI-assisted variants, using correct usage patterns and misuse specifications. These examples and 147 correct usage cases are analyzed using Copilot integrated in Visual Studio Code. Copilot achieved a detection accuracy of 86.2%, precision of 91.2%, and recall of 92.4%. It performed strongly on common misuse types (e.g., missing-call, null-check) but struggled with compound or context-sensitive cases. Notably, Copilot successfully fixed over 95% of the misuses it identified. These findings highlight both the strengths and limitations of AI-driven coding assistants, positioning Copilot as a promising tool for real-time pair programming and detecting and fixing API misuses during software development.
- Abstract(参考訳): APIの誤用はセキュリティ上の脆弱性やシステム障害を導入し、メンテナンスコストを増大させます。
既存の検出アプローチは、静的解析や、開発後の運用を行うマシンラーニングベースのツールに依存しており、欠陥解決が遅れている。
遅延した欠陥解決は、メンテナンスのコストと複雑さを大幅に増加させ、ソフトウェアの信頼性とユーザ信頼に悪影響を及ぼす可能性がある。
GitHub CopilotのようなAIによるコードアシスタントは、開発環境内でのリアルタイムAPI誤用検出の可能性を秘めている。
この研究は、MUBenchを使用してAPI誤用を特定し修正するGitHub Copilotの有効性を評価し、誤用事例のキュレートされたベンチマークを提供する。
正確な使用パターンと誤用仕様を使用して、手動およびAI支援型を介して740の誤用例を構築します。
これらの例と147の正しいユースケースは、Visual Studio Codeに統合されたCopilotを使って分析される。
コパイロットは86.2%の精度、91.2%の精度、92.4%のリコールを達成した。
一般的な誤用タイプ(例えば、欠落呼び出し、nullチェック)で強く動作するが、複雑なケースやコンテキストに敏感なケースで苦労した。
特に、Copilotは特定した誤用の95%以上をうまく修正した。
これらの発見は、AI駆動のコーディングアシスタントの長所と短所の両方を強調し、Copilotをリアルタイムペアプログラミングの有望なツールとして位置づけ、ソフトウェア開発におけるAPIの誤用を検出し、修正する。
関連論文リスト
- GitHub's Copilot Code Review: Can AI Spot Security Flaws Before You Commit? [0.0]
この研究は、セキュリティ脆弱性の検出においてGitHub Copilotが最近導入したコードレビュー機能の有効性を評価する。
期待に反して、私たちの結果は、Copilotのコードレビューが重大な脆弱性を検出するのに頻繁に失敗することを示している。
私たちの結果は、堅牢なソフトウェアセキュリティを保証するために、専用のセキュリティツールと手作業によるコード監査が引き続き必要であることを示している。
論文 参考訳(メタデータ) (2025-09-17T02:56:21Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。
AUGERには欠陥検出とエラートリガーという2つのステージがある。
F1スコアと欠陥検出精度で4.7%から35.3%向上した。
ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文 参考訳(メタデータ) (2024-12-01T14:28:48Z) - Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study on GitHub and Stack Overflow [6.724815667295355]
AIプログラマペアであるGitHub Copilotは、コードスニペットの大規模なコーパスでトレーニングされた機械学習モデルを使用して、コード提案を生成する。
ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。
473のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。
論文 参考訳(メタデータ) (2023-11-02T06:24:38Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。