論文の概要: Mining Subscenario Refactoring Opportunities in Behaviour-Driven Software Test Suites: ML Classifiers and LLM-Judge Baselines
- arxiv url: http://arxiv.org/abs/2605.14568v1
- Date: Thu, 14 May 2026 08:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.727575
- Title: Mining Subscenario Refactoring Opportunities in Behaviour-Driven Software Test Suites: ML Classifiers and LLM-Judge Baselines
- Title(参考訳): 振る舞い駆動型ソフトウェアテストスイートにおけるサブシナリオリファクタリングオプションのマイニング - ML分類器とLLM-Judgeベースライン
- Authors: Ali Hassaan Mughal, Noor Fatima, Muhammad Bilal,
- Abstract要約: 振る舞い駆動開発(BDD)ソフトウェアテストスイートは、重複したステップサブシーケンスを蓄積します。
3つのパブリッシュパターンが利用可能である(ファイルの背景、再利用可能な再利用可能なシナリオ呼び出し、組織間の共有高レベルステップ)。
繰り返し続くサブシーケンスが抽出に値するか、どのメカニズムが適用されるかを自動化する前の作業はありません。
- 参考スコア(独自算出の注目度): 1.9537983097153042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context. Behaviour-Driven Development (BDD) software test suites accumulate duplicated step subsequences. Three published refactoring patterns are available (within-file Background, within-repo reusable-scenario invocation, cross-organisational shared higher-level step), but no prior work automates which recurring subsequences are worth extracting or which mechanism applies. Objective. Rank recurring step subsequences ("slices") by refactoring suitability (extraction-worthy), pre-map each to one of the three patterns, and quantify prevalence across the public BDD ecosystem. Method. Every contiguous L-step window (L in [2, 18]) in a 339-repository / 276-upstream-owner Gherkin corpus is keyed by paraphrase-robust cluster identifiers and counted under three scopes. Sentence-BERT (SBERT) / Uniform Manifold Approximation and Projection (UMAP) / Hierarchical Density-Based Clustering (HDBSCAN) recovers paraphrase-equivalent slices. Three authors label a stratified 200-slice pool against a written rubric. An eXtreme Gradient Boosting (XGBoost) extraction-worthy classifier trained under 5-fold cross-validation is compared with a tuned rule baseline and two open-weight Large Language Model (LLM) judges. Results. The miner produces 5,382,249 slices collapsing to 692,020 recurring patterns. Three-author Fleiss' kappa = 0.56 (extraction-worthy) and 0.79 (mechanism). The classifier reaches out-of-fold F1 = 0.891 (95% CI [0.852, 0.927]), outperforming both the rule baseline (F1 = 0.836, p = 0.017) and the better LLM judge (F1 = 0.728, p < 1e-4). 75.0%, 59.5%, and 11.7% of scenarios carry a within-file Background, within-repo reusable-scenario, or cross-organisational shared-step candidate. Conclusion. Paraphrase-robust subscenario discovery yields a corpus-wide census of BDD refactoring opportunities; pipeline, classifier predictions, labelled pool, and rubric are released under Apache-2.0.
- Abstract(参考訳): コンテキスト。
振る舞い駆動開発(BDD)ソフトウェアテストスイートは、重複したステップサブシーケンスを蓄積します。
3つのリファクタリングパターンが公開されています(ファイルのバックグラウンド、再利用可能な再起動、組織間の共有高レベルステップ)。
目的。
適合性(抽出にふさわしい)をリファクタリングし、各パターンを3つのパターンの1つに事前マップし、公開BDDエコシステム全体での頻度を定量化する。
方法。
339-Repository / 276-upstream-owner Gherkin corpus の全ての連続した L-step ウィンドウ (L in [2, 18]) は、パラフレーズ・ロバストクラスタ識別子によってキーされ、3つのスコープでカウントされる。
SBERT (Sentence-BERT) / Uniform Manifold Approximation and Projection (UMAP) / Hierarchical Density-Based Clustering (HDBSCAN) はパラフレーズ等価スライスを復元する。
3人の著者は、成層化された200スライスプールを記述されたルーリックにラベル付けします。
5倍のクロスバリデーションの下で訓練されたeXtreme Gradient Boosting(XGBoost)抽出値分類器を、チューニングされたルールベースラインと2つのオープンウェイトなLarge Language Model(LLM)判定器と比較する。
結果。
鉱夫は5,382,249個のスライスを692,020個の繰り返しパターンに分解する。
3人の著者Fleiss' kappa = 0.56(抽出値)と0.79(力学)である。
分類器はF1 = 0.891 (95% CI [0.852, 0.927]) に達し、規則ベースライン (F1 = 0.836, p = 0.017) とより良いLCM判定 (F1 = 0.728, p < 1e-4) の両方を上回る。
75.0%、59.5%、11.7%のシナリオは、ファイル内背景、リポジトリ内再利用可能なシナリオ、組織間の共有ステップ候補を持っている。
結論。
Paraphrase-robust subscenarioの発見は、BDDリファクタリングの機会に関する全社的な調査をもたらす。パイプライン、分類器の予測、ラベル付きプール、ルーリックは、Apache-2.0の下でリリースされている。
関連論文リスト
- Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark [1.9537983097153042]
振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
論文 参考訳(メタデータ) (2026-04-22T11:44:05Z) - Layer-wise MoE Routing Locality under Shared-Prefix Code Generation: Token-Identity Decomposition and Compile-Equivalent Fork Redundancy [0.0]
LLMベースのコード生成では、複数のコード候補が同じプロンプトから並列に生成されることが多い。
Qwen3.5-35B-A3B-FP8を共有接頭辞から木探索に基づく分岐生成により検討した。
ビーム検索を含むトップP検索の多様性は、大きな課題であることを示している。
論文 参考訳(メタデータ) (2026-04-19T00:56:08Z) - HCRE: LLM-based Hierarchical Classification for Cross-Document Relation Extraction with a Prediction-then-Verification Strategy [54.91468501159335]
文書間関係抽出 (RE) は, 異なる文書に存在する頭部尾部エンティティ間の関係を識別することを目的としている。
本稿では,各レベルでの多視点検証により信頼性を向上させる推論戦略を提案する。
論文 参考訳(メタデータ) (2026-04-09T07:55:27Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - OpenSanctions Pairs: Large-Scale Entity Matching with LLMs [0.9131359219276399]
我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31か国で293の異種源にまたがる755,540のラベル付きペアが含まれている。
オフザシェルフ LLM は生産ルールベースのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T06:25:49Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation [19.671138538152213]
クロストークン化確率スコアリングのための確率的フレームワークを作成する。
本手法はGSM8Kの精度を現状よりも2%以上向上させる。
論文 参考訳(メタデータ) (2025-12-16T22:49:42Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach [48.684550829098534]
弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
論文 参考訳(メタデータ) (2023-12-21T18:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。