論文の概要: Detecting Flaky Tests in Quantum Software: A Dynamic Approach
- arxiv url: http://arxiv.org/abs/2512.18088v2
- Date: Fri, 26 Dec 2025 16:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.777485
- Title: Detecting Flaky Tests in Quantum Software: A Dynamic Approach
- Title(参考訳): 量子ソフトウェアにおけるフレキテストの検出:動的アプローチ
- Authors: Dongchan Kim, Hamidreza Khoramrokh, Lei Zhang, Andriy Miranskyy,
- Abstract要約: コードや環境の変更なしに非決定的に通過または失敗する不安定なテストは、ソフトウェアの信頼性に深刻な脅威をもたらす。
本稿では,量子ソフトウェアにおけるフレキテストの大規模動的評価について述べる。
コントロールされた環境で、23リリースにまたがって1万回のQiskit Terraテストスイートを実行しました。
- 参考スコア(独自算出の注目度): 4.46640294257026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flaky tests, tests that pass or fail nondeterministically without changes to code or environment, pose a serious threat to software reliability. While classical software engineering has developed a rich body of dynamic and static techniques to study flakiness, corresponding evidence for quantum software remains limited. Prior work relies primarily on static analysis or small sets of manually reported incidents, leaving open questions about the prevalence, characteristics, and detectability of flaky tests. This paper presents the first large-scale dynamic characterization of flaky tests in quantum software. We executed the Qiskit Terra test suite 10,000 times across 23 releases in controlled environments. For each release, we measured test-outcome variability, identified flaky tests, estimated empirical failure probabilities, analyzed recurrence across versions, and used Wilson confidence intervals to quantify rerun budgets for reliable detection. We further mapped flaky tests to Terra subcomponents to assess component-level susceptibility. Across 27,026 test cases, we identified 290 distinct flaky tests. Although overall flakiness rates were low (0-0.4%), flakiness was highly episodic: nearly two-thirds of flaky tests appeared in only one release, while a small subset recurred intermittently or persistently. Many flaky tests failed with very small empirical probabilities ($\hat{p} \approx 10^{-4}$), implying that tens of thousands of executions may be required for confident detection. Flakiness was unevenly distributed across subcomponents, with 'transpiler' and 'quantum_info' accounting for the largest share. These results show that quantum test flakiness is rare but difficult to detect under typical continuous integration budgets. To support future research, we release a public dataset of per-test execution outcomes.
- Abstract(参考訳): 不安定なテスト、コードや環境の変更なしに非決定的にパスまたは失敗するテストは、ソフトウェアの信頼性に深刻な脅威をもたらす。
古典的なソフトウェア工学では、フレキネスを研究するためのリッチな動的および静的なテクニックが開発されているが、量子ソフトウェアの証拠は限られている。
以前の作業は、主に静的分析や、手動で報告されたインシデントの小さなセットに依存しており、不安定なテストの頻度、特性、検出性に関するオープンな疑問を残している。
本稿では,量子ソフトウェアにおけるフレキテストの大規模動的評価について述べる。
コントロールされた環境で、23リリースにまたがって1万回のQiskit Terraテストスイートを実行しました。
各リリースにおいて,テストアウトカムの変動,フレークテストの特定,経験的失敗確率の推定,バージョン間の再現性の解析,信頼性検出のための再実行予算の定量化にWilson信頼区間を用いた。
さらに、コンポーネントレベルの感受性を評価するために、Terraサブコンポーネントにフレキなテストをマッピングした。
27,026検体中290検体が確認された。
フレキネス率は低い(0-0.4%)が、フレキネスは非常にエピソジックで、フレキテストの約3分の2は1リリースでのみ出現し、小さなサブセットは断続的にまたは持続的に再発した。
多くのフレキなテストは、非常に小さな経験的確率("\hat{p} \approx 10^{-4}$")で失敗した。
フラキネスはサブコンポーネント間で不均一に分配され、最大のシェアは「トランスパイラー」と「クォータム・インフォ」である。
これらの結果は、量子テストのフレキネスは稀であるが、典型的な連続積分予算下では検出が困難であることを示している。
今後の研究を支援するため、テストごとの実行結果の公開データセットをリリースする。
関連論文リスト
- Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。
開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。
フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文 参考訳(メタデータ) (2025-04-23T14:51:23Z) - Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。
量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文 参考訳(メタデータ) (2024-10-31T02:43:04Z) - Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - Precise Error Rates for Computationally Efficient Testing [67.30044609837749]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。