論文の概要: Finding Duplicates in 1.1M BDD Steps: cukereuse, a Paraphrase-Robust Static Detector for Cucumber and Gherkin
- arxiv url: http://arxiv.org/abs/2604.20462v1
- Date: Wed, 22 Apr 2026 11:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.110326
- Title: Finding Duplicates in 1.1M BDD Steps: cukereuse, a Paraphrase-Robust Static Detector for Cucumber and Gherkin
- Title(参考訳): 1.1MのBDDステップで重複点を見つける: CucumberとGherkinのパラフレーズロバスト静的検出器であるcukereuse
- Authors: Ali Hassaan Mughal, Noor Fatima, Muhammad Bilal,
- Abstract要約: 振る舞い駆動開発スイートは、以前の作業でメンテナンスコストが確立されたステップテキスト重複を蓄積します。
既存の検出技術では、テストを実行するか、1つの組織に限定される。
我々はcukereuseをリリースした。これはオープンソースのPython CLIで、正確なハッシュ、Levenshtein比、層状パイプラインへの文変換器の埋め込みを組み合わせたものだ。
- 参考スコア(独自算出の注目度): 1.9537983097153042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behaviour-Driven Development (BDD) suites accumulate step-text duplication whose maintenance cost is established in prior work. Existing detection techniques require running the tests (Binamungu et al., 2018-2023) or are confined to a single organisation (Irshad et al., 2020-2022), leaving a gap: a purely static, paraphrase-robust, step-level detector usable on any repository. We fill the gap with cukereuse, an open-source Python CLI combining exact hashing, Levenshtein ratio, and sentence-transformer embeddings in a layered pipeline, released alongside an empirical corpus of 347 public GitHub repositories, 23,667 parsed .feature files, and 1,113,616 Gherkin steps. The step-weighted exact-duplicate rate is 80.2 %; the median-repository rate is 58.6 % (Spearman rho = 0.51 with size). The top hybrid cluster groups 20.7k occurrences across 2.2k files. Against 1,020 pairs manually labelled by the three authors under a released rubric (inter-annotator Fleiss' kappa = 0.84 on a 60-pair overlap), we report precision, recall, and F1 with bootstrap 95 % CIs under two protocols: the primary rubric and a score-free second-pass relabelling. The strongest honest pair-level number is near-exact at F1 = 0.822 on score-free labels; the primary-rubric semantic F1 = 0.906 is inflated by a stratification artefact that pins recall at 1.000. Lexical baselines (SourcererCC-style, NiCad-style) reach primary F1 = 0.761 and 0.799. The paper also presents a CDN-structured critique of Gherkin (Cognitive Dimensions of Notations); eight of fourteen dimensions are rated problematic or unsupported. The tool, corpus, labelled pairs, rubric, and pipeline are released under permissive licences.
- Abstract(参考訳): 振る舞い駆動開発(BDD)スイートは、以前の作業でメンテナンスコストが確立されたステップテキスト重複を蓄積します。
既存の検出技術では、テストの実行(Binamungu et al , 2018-2023)、あるいは単一の組織(Irshad et al , 2020-2022)に限定される。
cukereuseは、正確なハッシュ、Levenshtein比、文変換器の埋め込みを組み合わせたオープンソースのPython CLIで、347のパブリックGitHubリポジトリ、23,667のパースされた経験的なコーパスとともに、階層化されたパイプラインでリリースされている。
フィーチャーファイルと1,113,616のGherkinステップ。
ステップ重み付き完全二重レートは80.2%、中央リポジトリレートは58.6%である(スピアマンrho = 0.51)。
上位のハイブリッドクラスタグループ20.7kは2.2kファイルにわたって発生します。
Fleiss' kappa = 0.84 on a 60-pair overlap)という3人の著者によって手動でラベル付けされた1,020対に対して、我々は2つのプロトコル(プライマリ・ルーリックとスコアフリーのセカンドパス・リラベリング)の下で、ブートストラップ95%のCIで精度、リコール、F1を報告した。
最強の正直なペアレベル数は、スコアフリーラベル上でF1 = 0.822とほぼ同一であり、一次ルーブリックな意味を持つF1 = 0.906は、1000でリコールをピンする成層アーチファクトによって膨らませられる。
語彙ベースライン(SourcererCCスタイル、NiCadスタイル)は一次F1 = 0.761 と 0.799 に達する。
論文ではまた、Gherkin (Cognitive Dimensions of Notations) のCDN構造化批評も提示している。
ツール、コーパス、ラベル付きペア、ルーリック、パイプラインはパーミッシブライセンスでリリースされる。
関連論文リスト
- Detecting Media Clones in Cultural Repositories Using a Positive Unlabeled Learning Approach [0.0]
我々は,AtticPOTレポジトリにおけるキュレーターとループの重複発見を,肯定的無ラベル(PU)学習問題として定式化する。
我々は、アンカーの強化ビューに基づいて軽量なクエリごとのクローンをトレーニングし、潜在lノルムの解釈可能なしきい値でラベル付けされていないリポジトリをスコア付けする。
本システムでは、事前確認されていないクロスレコード重複を明らかにするキュレーター検証の候補を提案する。
論文 参考訳(メタデータ) (2026-04-05T11:41:29Z) - BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation [34.429649156970015]
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
論文 参考訳(メタデータ) (2026-04-03T16:30:58Z) - Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs [7.158582263989492]
我々は、SciSciNetから1万の論文に対して、ペア化された引用グラフ、基底真理、GPT-4o生成(パラメトリック知識から)を構築した。
GPTは、ランダムなベースラインをきれいに拒否するにもかかわらず、地上の真理(RF精度$approx$0.60)とほとんど区別されないことを示す。
集約された埋め込み上のRFは$approx$ 0.83に達し、埋め込みノード機能を持つGNNはGPTと地上真実の93%のテスト精度を達成する。
論文 参考訳(メタデータ) (2026-01-28T15:37:31Z) - A Two-Stage Strategy for Mitosis Detection Using Improved YOLO11x Proposals and ConvNeXt Classification [5.1547008655164195]
MIDOG 2025 Track 1は、非腫瘍性、炎症性、壊死性再腫瘍を含む全スライディングイメージ(WSI)におけるミトーシス検出を必要とする。
複雑で異質な文脈のため、しばしば偽陽性と偽陰性が存在するため、検出F1スコアは劣化する。
本稿では、有糸分裂候補を生成し、偽陽性を除去する2段階フレームワークを提案する。
MIDOG 2025 Track 1の予備テストセットでは、thealgorithmのスコアは0.7587である。
論文 参考訳(メタデータ) (2025-09-01T15:46:28Z) - Certified Robustness Under Bounded Levenshtein Distance [55.54271307451233]
畳み込み型分類器のリプシッツ定数をレヴェンシュテイン距離に対して計算する最初の方法を提案する。
我々の方法であるLipsLevは、それぞれ18.80ドル%と13.93ドル%の精度を1ドルと2ドルで得ることができる。
論文 参考訳(メタデータ) (2025-01-23T13:58:53Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments [70.1864008701113]
ボットはGithubリポジトリで、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化するために使用されている。
本稿では,5000のGithubアカウントのプルリクエストとコメント発行に関する,高い相互契約を伴う手動分析に基づいて,基幹トラスデータセットを提案する。
ボットを検出する自動分類モデルを提案し,各アカウントの空のコメント数と空でないコメント数,コメントパターンの数,コメントパターン内のコメント間の不平等を主特徴とする。
論文 参考訳(メタデータ) (2020-10-07T09:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。