論文の概要: Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark
- arxiv url: http://arxiv.org/abs/2604.20462v2
- Date: Sun, 26 Apr 2026 22:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.917335
- Title: Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark
- Title(参考訳): 振る舞い駆動開発におけるメンテナンスバーデンの削減: 1.1M-Step Open Benchmarkによるパラフレーズ・ローバスト・ダブル・ディテクタ
- Authors: Ali Hassaan Mughal, Noor Fatima, Muhammad Bilal,
- Abstract要約: 振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
- 参考スコア(独自算出の注目度): 1.9537983097153042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context. Behaviour-Driven Development (BDD) suites in Gherkin accumulate step-text duplication with documented maintenance cost. Prior detectors either require runnable tests or are single-organisation, leaving a gap: a static, paraphrase-robust, step-level detector and a public benchmark to calibrate it. Objective. We release (i) the largest cross-organisational BDD step corpus to date, (ii) a labelled pair-level calibration benchmark, and (iii) a four-strategy detector with a consolidation-savings model linking clusters to ISO/IEC 25010 maintainability sub-characteristics. Method. The corpus contains 347 public GitHub repositories, 23,667 .feature files, and 1,113,616 Gherkin steps, SPDX-tagged. The detector layers exact hashing, normalised Levenshtein, sentence-transformer cosine, and a Levenshtein-banded hybrid. Calibration uses 1,020 manually labelled step pairs under a released rubric (60-pair overlap, Fleiss kappa = 0.84). We report precision, recall, and F1 with bootstrap 95% CIs under the primary rubric and a score-free relabelling, and benchmark against SourcererCC-style and NiCad-style lexical baselines. Results. Step-weighted exact-duplicate rate is 80.2%; median-repository rate is 58.6% (Spearman rho = 0.51). The top hybrid cluster has 20,737 occurrences across 2,245 files. Near-exact reaches F1 = 0.822 on score-free labels; semantic F1 = 0.906 under the primary rubric reflects a disclosed stratification artefact. Lexical baselines reach F1 = 0.761 and 0.799. The savings model estimates 893,357 corpus-wide eliminable step occurrences; on the median repository 62.5% of step lines are eliminable.
- Abstract(参考訳): コンテキスト。
Gherkinの振る舞い駆動開発(BDD)スイートは、ドキュメント化されたメンテナンスコストでステップテキスト重複を蓄積します。
以前の検出器は実行可能なテストを必要とするか、単一組織であるか、ギャップを残している:静的なパラフレーズローバスト、ステップレベルの検出器と、それを校正するための公開ベンチマークである。
目的。
リリース
i) 今までで最大の組織横断型BDDステップコーパス。
(ii)ラベル付きペアレベルのキャリブレーションベンチマーク、及び
三 クラスターをISO/IEC 25010の維持性サブ特性にリンクする固化保存モデルを持つ四方形検出器。
方法。
corpusには347のパブリックGitHubリポジトリ、23,667が含まれている。
機能ファイルと1,113,616のGherkinステップ、SPDXタグ。
検出器は、正確なハッシュ、正規化されたレヴェンシュテイン、文変換器のコサイン、およびレヴェンシュテイン結合ハイブリッドの層である。
キャリブレーションは、リリースされたルーリック(60対のオーバーラップ、Fleiss kappa = 0.84)の下で、手動でラベル付けされたステップペア1,020を使用する。
我々は,一次ルーリックの下で95%CIをブートストラップし,スコアレスリラベリングを行い,SourcererCCスタイルとNiCadスタイルの語彙ベースラインに対するベンチマークを行った。
結果。
ステップ重み付き完全二重レートは80.2%、中央リポジトリレートは58.6%(スピアマンrho = 0.51)である。
上位のハイブリッドクラスタは、2,245ファイルで20,737件発生している。
F1 = 0.906 は、開示された層状化アーティファクトを反映している。
語彙ベースラインは F1 = 0.761 と 0.799 に達する。
貯蓄モデルでは、コーパス全体の昇降可能なステップの発生が推定893,357であり、中央リポジトリでは62.5%が昇降可能である。
関連論文リスト
- Detecting Media Clones in Cultural Repositories Using a Positive Unlabeled Learning Approach [0.0]
我々は,AtticPOTレポジトリにおけるキュレーターとループの重複発見を,肯定的無ラベル(PU)学習問題として定式化する。
我々は、アンカーの強化ビューに基づいて軽量なクエリごとのクローンをトレーニングし、潜在lノルムの解釈可能なしきい値でラベル付けされていないリポジトリをスコア付けする。
本システムでは、事前確認されていないクロスレコード重複を明らかにするキュレーター検証の候補を提案する。
論文 参考訳(メタデータ) (2026-04-05T11:41:29Z) - BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation [34.429649156970015]
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
論文 参考訳(メタデータ) (2026-04-03T16:30:58Z) - Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs [7.158582263989492]
我々は、SciSciNetから1万の論文に対して、ペア化された引用グラフ、基底真理、GPT-4o生成(パラメトリック知識から)を構築した。
GPTは、ランダムなベースラインをきれいに拒否するにもかかわらず、地上の真理(RF精度$approx$0.60)とほとんど区別されないことを示す。
集約された埋め込み上のRFは$approx$ 0.83に達し、埋め込みノード機能を持つGNNはGPTと地上真実の93%のテスト精度を達成する。
論文 参考訳(メタデータ) (2026-01-28T15:37:31Z) - A Two-Stage Strategy for Mitosis Detection Using Improved YOLO11x Proposals and ConvNeXt Classification [5.1547008655164195]
MIDOG 2025 Track 1は、非腫瘍性、炎症性、壊死性再腫瘍を含む全スライディングイメージ(WSI)におけるミトーシス検出を必要とする。
複雑で異質な文脈のため、しばしば偽陽性と偽陰性が存在するため、検出F1スコアは劣化する。
本稿では、有糸分裂候補を生成し、偽陽性を除去する2段階フレームワークを提案する。
MIDOG 2025 Track 1の予備テストセットでは、thealgorithmのスコアは0.7587である。
論文 参考訳(メタデータ) (2025-09-01T15:46:28Z) - Certified Robustness Under Bounded Levenshtein Distance [55.54271307451233]
畳み込み型分類器のリプシッツ定数をレヴェンシュテイン距離に対して計算する最初の方法を提案する。
我々の方法であるLipsLevは、それぞれ18.80ドル%と13.93ドル%の精度を1ドルと2ドルで得ることができる。
論文 参考訳(メタデータ) (2025-01-23T13:58:53Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments [70.1864008701113]
ボットはGithubリポジトリで、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化するために使用されている。
本稿では,5000のGithubアカウントのプルリクエストとコメント発行に関する,高い相互契約を伴う手動分析に基づいて,基幹トラスデータセットを提案する。
ボットを検出する自動分類モデルを提案し,各アカウントの空のコメント数と空でないコメント数,コメントパターンの数,コメントパターン内のコメント間の不平等を主特徴とする。
論文 参考訳(メタデータ) (2020-10-07T09:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。