Fugu-MT 論文翻訳(概要): From Code Generation to Software Testing: AI Copilot with Context-Based RAG

論文の概要: From Code Generation to Software Testing: AI Copilot with Context-Based RAG

arxiv url: http://arxiv.org/abs/2504.01866v1
Date: Wed, 02 Apr 2025 16:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.428406
Title: From Code Generation to Software Testing: AI Copilot with Context-Based RAG
Title（参考訳）: コード生成からソフトウェアテストへ - コンテキストベースのRAGによるAIコパイロット
Authors: Yuchen Wang, Shangxin Guo, Chee Wei Tan,
Abstract要約: 本稿では,2つの相互接続問題として,バグ検出と少ないバグでコーディングを行うことにより,ソフトウェアテストの新たな視点を提案する。我々は、バグ検出と更新を同期する自動テストシステムであるCopilot for Testingを紹介した。評価の結果,バグ検出精度が31.2%向上し,テストカバレッジが12.6%向上し,ユーザ受け入れ率が10.5%向上した。
参考スコア（独自算出の注目度）: 8.28588489551341
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid pace of large-scale software development places increasing demands on traditional testing methodologies, often leading to bottlenecks in efficiency, accuracy, and coverage. We propose a novel perspective on software testing by positing bug detection and coding with fewer bugs as two interconnected problems that share a common goal, which is reducing bugs with limited resources. We extend our previous work on AI-assisted programming, which supports code auto-completion and chatbot-powered Q&A, to the realm of software testing. We introduce Copilot for Testing, an automated testing system that synchronizes bug detection with codebase updates, leveraging context-based Retrieval Augmented Generation (RAG) to enhance the capabilities of large language models (LLMs). Our evaluation demonstrates a 31.2% improvement in bug detection accuracy, a 12.6% increase in critical test coverage, and a 10.5% higher user acceptance rate, highlighting the transformative potential of AI-driven technologies in modern software development practices.
Abstract（参考訳）: 大規模ソフトウェア開発の急激なペースは、従来のテスト方法論への需要を増大させ、多くの場合、効率性、正確性、カバレッジのボトルネックに繋がる。本稿では,バグ検出と少ないバグによるコーディングを共通目標を共有する2つの相互接続問題として提案する。コードの自動補完とチャットボットによるQ&AをサポートするAI支援プログラミングに関するこれまでの作業は、ソフトウェアテストの領域にまで拡張しています。コードベースの更新とバグ検出を同期する自動テストシステムであるCopilot for Testingを導入し、コンテキストベースのRetrieval Augmented Generation(RAG)を活用して、大規模言語モデル(LLM)の機能を強化する。私たちの評価では、バグ検出精度が31.2%向上し、クリティカルテストカバレッジが12.6%向上し、ユーザ受け入れ率が10.5%向上し、現代のソフトウェア開発プラクティスにおけるAI駆動技術の変革の可能性を強調しています。

関連論文リスト

Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [66.1850490474361]
コーディングエージェントとの開発者インタラクションを探求する最初の学術的研究を行う。私たちは、GitHub CopilotとOpenHandsの2つの主要なコピロとエージェントコーディングアシスタントを評価します。この結果から、エージェントは、コピロトを超越した方法で開発者を支援する可能性を示唆している。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
Echoes of AI: Investigating the Downstream Effects of AI Assistants on Software Maintainability [5.677464428950146]
本研究では,AIアシスタントとの共同開発がソフトウェア保守性に与える影響について検討する。フェーズ1でのAI支援開発は、その後の進化を緩やかなスピードアップに導いた。習慣的AIユーザーの平均スピードアップは55.9%だった。
論文参考訳（メタデータ） (2025-07-01T14:24:37Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Comparative Analysis of Quantum and Classical Support Vector Classifiers for Software Bug Prediction: An Exploratory Study [8.214986715680737]
本稿では,Quantum Support Vectors (QSVC) のバギーソフトウェアコミット検出への応用について検討する。提案手法は,QSVCアルゴリズムの大規模データセットをより小さなサブセットに分割することで処理する。本稿では,これらのモデルからの予測を組み合わせて,テストデータセット全体を検出するアグリゲーション手法を提案する。
論文参考訳（メタデータ） (2025-01-08T18:53:50Z)
What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。 AUGERには欠陥検出とエラートリガーという2つのステージがある。 F1スコアと欠陥検出精度で4.7%から35.3%向上した。ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文参考訳（メタデータ） (2024-12-01T14:28:48Z)
Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。 Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文参考訳（メタデータ） (2024-11-01T14:27:16Z)
The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文参考訳（メタデータ） (2024-09-09T17:12:40Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文参考訳（メタデータ） (2023-05-19T17:25:54Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。