Fugu-MT 論文翻訳(概要): REACCEPT: Automated Co-evolution of Production and Test Code Based on Dynamic Validation and Large Language Models

論文の概要: REACCEPT: Automated Co-evolution of Production and Test Code Based on Dynamic Validation and Large Language Models

arxiv url: http://arxiv.org/abs/2411.11033v1
Date: Sun, 17 Nov 2024 10:26:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.481056
Title: REACCEPT: Automated Co-evolution of Production and Test Code Based on Dynamic Validation and Large Language Models
Title（参考訳）: REACCEPT:動的バリデーションと大規模言語モデルに基づく生産・テストコードの自動共進化
Authors: Jianlei Chi, Xiaotian Wang, Yuhan Huang, Lechen Yu, Di Cui, Jianguo Sun, Jun Sun,
Abstract要約: PT自動共進化のための既存の方法は、事前に定義されたルールを利用するか、機械学習技術のシンプルな応用に依存する。大規模言語モデルと動的検証を利用してPT共進化を完全に自動化する新しい手法であるREACCEPTを提案する。 ReACCEPTの更新精度は60.16%に達し、最先端の技術であるCEPROTを90%上回った。
参考スコア（独自算出の注目度）: 7.893823144743425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synchronizing production and test code, known as PT co-evolution, is critical for software quality in the software development lifecycle. Existing methods for automatic PT co-evolution either utilize predefined heuristic rules or rely on simple application of machine learning techniques. Due to the limitations of underlying techniques, existing methods either only partially automate PT co-evolution (e.g., only automate obsolete test code identification) or result in low accuracy. In this paper, we propose REACCEPT, a novel approach that leverages large language models and dynamic validation to fully automate PT co-evolution (i.e., capable of both identifying and updating obsolete test cases). REACCEPT relies on experience-based prompt template generation, dynamic validation, and retrieval-augmented generation techniques to accomplish automated PT co-evolution. To evaluate REACCEPT's effectiveness, we extensive experiments with a dataset of 537 Java projects and compared REACCEPT's performance with several state-of-the-art methods. Results show that REACCEPT achieved an update accuracy of 60.16% on correctly identified obsolete test code, surpassing the state-of-the-art technique CEPROT by 90%. This confirms that REACCEPT can effectively assist developers in maintaining test code, improving overall software quality and reducing maintenance effort.
Abstract（参考訳）: PT共進化(PT co-evolution)として知られるプロダクションコードとテストコードの同期は、ソフトウェア開発ライフサイクルにおけるソフトウェア品質に不可欠である。既存のPT自動共進化法は、既定のヒューリスティックルールを利用するか、あるいは機械学習技術のシンプルな応用に依存している。基礎技術に制限があるため、既存のメソッドはPT共進化を部分的に自動化するだけ(例えば、古いテストコードの識別を自動化するだけ)か、結果として精度が低下する。本稿では,大規模な言語モデルと動的検証を活用してPT共進化を完全自動化する新しい手法であるREACCEPTを提案する。 REACCEPTは、自動PT共進化を実現するために、経験ベースのプロンプトテンプレート生成、動的バリデーション、検索拡張生成技術に依存している。 REACCEPTの有効性を評価するため、537のJavaプロジェクトのデータセットを用いて広範囲に実験を行い、REACCEPTの性能をいくつかの最先端手法と比較した。その結果,REACCEPTの更新精度は60.16%で,最先端技術であるCEPROTを90%以上上回った。これは、REACCEPTが、開発者がテストコードを維持するのを効果的に支援し、ソフトウェアの品質を改善し、メンテナンスの労力を減らすことができることを確認します。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文参考訳（メタデータ） (2025-05-27T03:15:21Z)
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。 VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文参考訳（メタデータ） (2025-05-12T09:14:20Z)
From Requirements to Test Cases: An NLP-Based Approach for High-Performance ECU Test Case Automation [0.5249805590164901]
本研究では,自然言語処理技術を用いて,自然言語要求を構造化されたテストケース仕様に変換する手法について検討する。 400個の特徴要素文書のデータセットを用いて、信号名や値などの重要な要素を抽出するための両方のアプローチを評価した。 Rule-Based 法は NER 法よりも優れており、95% の精度で単一信号でより単純な要求を満たすことができる。
論文参考訳（メタデータ） (2025-05-01T14:23:55Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,より優れたサンプル効率を有する定理証明手法であるProofAugを提案する。本手法は,オープンソースのDeepseek-math-7bベースモデルとIsabelle証明アシスタントを用いて,miniF2F-testベンチマークで検証した。
論文参考訳（メタデータ） (2025-01-30T12:37:06Z)
BitsAI-CR: Automated Code Review via LLM in Practice [16.569842114384233]
BitsAI-CRは、2段階のアプローチを通じてコードレビューを強化する革新的なフレームワークである。システムはレビュールールの包括的な分類に基づいて構築され、データフライホイール機構を実装している。実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。
論文参考訳（メタデータ） (2025-01-25T08:39:50Z)
CorrectBench: Automatic Testbench Generation with Functional Self-Correction using LLMs for HDL Design [6.414167153186868]
機能的自己検証と自己補正を備えた自動テストベンチ生成フレームワークであるCorrectBenchを提案する。提案手法は, 88.85%の成功率で生成したテストベンチの正当性を検証できる。作業性能は, 従来よりも62.18%高く, 直接手法のパス比の約5倍である。
論文参考訳（メタデータ） (2024-11-13T10:45:19Z)
Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人間による証明の欠如を克服する新しいフレームワークであるSAFEを紹介します。 GPT-4oに比べて効率と精度が優れていた。この進歩により性能が大幅に向上し、人間の専門家によるベンチマークで70.50%の精度が達成された。
論文参考訳（メタデータ） (2024-10-21T08:15:45Z)
The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文参考訳（メタデータ） (2024-09-09T17:12:40Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。テスト時間フォワード最適化適応法(FOA)を提案する。 FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文参考訳（メタデータ） (2024-04-02T05:34:33Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。 LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。 RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T18:48:31Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Measuring Improvement of F$_1$-Scores in Detection of Self-Admitted Technical Debt [5.750379648650073]
変換器(BERT)アーキテクチャからの双方向表現を利用した新しいアプローチによりSATDの検出を改善する。トレーニングされたBERTモデルは、プロジェクト横断シナリオにおいて、20プロジェクト中19プロジェクトにおいて、以前のすべてのメソッドの最高のパフォーマンスよりも改善されていることが分かりました。今後の研究では、SATDデータセットを多様化して、大きなBERTモデルの潜伏電力を最大化する方法について検討する予定である。
論文参考訳（メタデータ） (2023-03-16T19:47:38Z)
Improving Automated Program Repair with Domain Adaptation [0.0]
自動プログラム修復(APR)は、ソースコードのバグ/欠陥を修正するプロセスとして、自動化ツールによって定義される。 APRツールは最近、最先端のニューラルネットワーク処理(NLP)技術を活用することで、有望な結果を経験している。
論文参考訳（メタデータ） (2022-12-21T23:52:09Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。