論文の概要: A Framework for Creating Non-Regressive Test Cases via Branch Consistency Analysis Driven by Descriptions
- arxiv url: http://arxiv.org/abs/2506.07486v1
- Date: Mon, 09 Jun 2025 07:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.838839
- Title: A Framework for Creating Non-Regressive Test Cases via Branch Consistency Analysis Driven by Descriptions
- Title(参考訳): 記述による分岐一貫性解析による非回帰テストケース作成フレームワーク
- Authors: Yuxiang Zhang, Pengyu Xue, Zhen Yang, Xiaoxue Ren, Xiang Li, Linhao Wu, Jiancheng Zhao, Xingda Yu,
- Abstract要約: DISTINCT は Description-guided, branch-consistency analysis framework である。
LLM(Large Language Model)ベースのジェネレータを障害対応テストジェネレータに変換する。
コンパイル成功率(CSR)が14.64%、通過率(PR)が6.66%の平均的な改善を実現している。
- 参考スコア(独自算出の注目度): 9.141981611891715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated test-generation research overwhelmingly assumes the correctness of focal methods, yet practitioners routinely face non-regression scenarios where the focal method may be defective. A baseline evaluation of EvoSuite and two leading Large Language Model (LLM)-based generators, namely ChatTester and ChatUniTest, on defective focal methods reveals that despite achieving up to 83% of branch coverage, none of the generated tests expose defects. To resolve this problem, we first construct two new benchmarks, namely Defects4J-Desc and QuixBugs-Desc, for experiments. In particular, each focal method is equipped with an extra Natural Language Description (NLD) for code functionality understanding. Subsequently, we propose DISTINCT, a Description-guided, branch-consistency analysis framework that transforms LLMs into fault-aware test generators. DISTINCT carries three iterative components: (1) a Generator that derives initial tests based on the NLDs and the focal method, (2) a Validator that iteratively fixes uncompilable tests using compiler diagnostics, and (3) an Analyzer that iteratively aligns test behavior with NLD semantics via branch-level analysis. Extensive experiments confirm the effectiveness of our approach. Compared to state-of-the-art methods, DISTINCT achieves an average improvement of 14.64% in Compilation Success Rate (CSR) and 6.66% in Passing Rate (PR) across both benchmarks. It notably enhances Defect Detection Rate (DDR) on both benchmarks, with a particularly significant gain of 149.26% observed on Defects4J-Desc. In terms of code coverage, DISTINCT improves Statement Coverage (SC) by an average of 3.77% and Branch Coverage (BC) by 5.36%. These results set a new baseline for non-regressive test generation and highlight how description-driven reasoning enables LLMs to move beyond coverage chasing toward effective defect detection.
- Abstract(参考訳): 自動テストジェネレーション研究は、焦点メソッドの正しさを圧倒的に仮定するが、焦点メソッドが欠陥がある可能性のある非回帰シナリオに対して、実践者は日常的に直面する。
EvoSuiteと2つの主要なLarge Language Model(LLM)ベースのジェネレータ、すなわちChatTesterとChatUniTestの欠陥焦点メソッドに対するベースライン評価によると、最大83%のブランチカバレッジを達成したにもかかわらず、生成されたテストのいずれも欠陥を公開していない。
この問題を解決するために、まず実験のためにDefects4J-DescとQuixBugs-Descという2つの新しいベンチマークを構築した。
特に、各焦点法は、コード機能を理解するための追加の自然言語記述(NLD)を備えている。
次に,DISTINCTを提案する。DISTINCTは記述誘導型分岐一貫性解析フレームワークで,LCMをフォールト・アウェア・テスト・ジェネレータに変換する。
DISTINCTは,(1)NLDと焦点法に基づいて初期テストを導出するジェネレータ,(2)コンパイラ診断を用いてコンパイル不可能なテストを反復的に修正するバリケータ,(3)NLDのセマンティクスを反復的に整列するアナライザの3つの反復的コンポーネントを包含する。
大規模な実験により、我々のアプローチの有効性が確認された。
DISTINCTは最先端の手法と比較して、コンパイル成功率(CSR)が14.64%、通過率(PR)が6.66%の平均的な改善を実現している。
両方のベンチマークでDDR(Defect Detection Rate)が顕著に向上し、Defects4J-Descでは149.26%が顕著に増加した。
コードカバレッジに関しては、DISTINCTはステートメントカバレッジ(SC)を平均3.77%改善し、ブランチカバレッジ(BC)を5.36%改善している。
これらの結果は、非回帰テスト生成のための新しいベースラインを設定し、記述駆動推論によってLCMが効果的な欠陥検出に向けてカバレッジを超えることができるかを強調した。
関連論文リスト
- T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [48.33401015101481]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。