論文の概要: Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software
- arxiv url: http://arxiv.org/abs/2603.09029v1
- Date: Mon, 09 Mar 2026 23:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.902892
- Title: Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software
- Title(参考訳): 量子ソフトウェアにおけるフレーク試験の自動検出とルートカス解析
- Authors: Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei Zhang,
- Abstract要約: 本稿では,量子ソフトウェアリポジトリにおけるフレキシブルテスト関連の問題とプルリクエストを検出する自動パイプラインを提案する。
我々は、既存の量子フレキテストデータセットを拡張し、フレキネス分類と根本原因同定のための大規模言語モデルの性能を評価する。
最高のパフォーマンスモデルであるGoogle Geminiは、フレキネス検出のためのF1スコア0.9420、根本原因同定のための0.9643を達成している。
- 参考スコア(独自算出の注目度): 3.853925623717688
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Like classical software, quantum software systems rely on automated testing. However, their inherently probabilistic outputs make them susceptible to quantum flakiness -- tests that pass or fail inconsistently without code changes. Such quantum flaky tests can mask real defects and reduce developer productivity, yet systematic tooling for their detection and diagnosis remains limited. This paper presents an automated pipeline to detect flaky-test-related issues and pull requests in quantum software repositories and to support the identification of their root causes. We aim to expand an existing quantum flaky test dataset and evaluate the capability of Large Language Models (LLMs) for flakiness classification and root-cause identification. Building on a prior manual analysis of 14 quantum software repositories, we automate the discovery of additional flaky test cases using LLMs and cosine similarity. We further evaluate a variety of LLMs from OpenAI GPT, Meta LLaMA, Google Gemini, and Anthropic Claude suites for classifying flakiness and identifying root causes from issue descriptions and code context. Classification performance is assessed using standard performance metrics, including F1-score. Using our pipeline, we identify 25 previously unknown flaky tests, increasing the original dataset size by 54%. The best-performing model, Google Gemini, achieves an F1-score of 0.9420 for flakiness detection and 0.9643 for root-cause identification, demonstrating that LLMs can provide practical support for triaging flaky reports and understanding their underlying causes in quantum software. The expanded dataset and automated pipeline provide reusable artifacts for the quantum software engineering community. Future work will focus on improving detection robustness and exploring automated repair of quantum flaky tests.
- Abstract(参考訳): 古典的ソフトウェアと同様に、量子ソフトウェアシステムは自動テストに依存している。
しかし、その本質的に確率的なアウトプットは、コードの変更なしに不整合に通過または失敗する、量子フレキネス(quantum flakiness)の影響を受けやすい。
このような量子フレキテストは、実際の欠陥を隠蔽し、開発者の生産性を低下させるが、検出と診断のための体系的なツールはまだ限られている。
本稿では,量子ソフトウェアリポジトリにおけるフレキテスト関連問題とプルリクエストの検出と,その根本原因の同定を支援するための自動パイプラインを提案する。
我々は、既存の量子フレキテストデータセットを拡張し、フレキネス分類と根源同定のためのLarge Language Models(LLMs)の能力を評価することを目指している。
14の量子ソフトウェアリポジトリの以前の手動解析に基づいて、LSMとコサイン類似性を用いて、さらなるフレキなテストケースの発見を自動化する。
さらに,OpenAI GPT, Meta LLaMA, Google Gemini, Anthropic Claude スイートから,フレキネスを分類し,問題記述やコードコンテキストから根本原因を特定するための様々な LLM の評価を行った。
分類性能は、F1スコアを含む標準的なパフォーマンス指標を使用して評価される。
パイプラインを使用して25の未知のフレキテストを特定し、元のデータセットサイズを54%増加させました。
最高のパフォーマンスモデルであるGoogle Geminiは、フレキネス検出のためのF1スコア0.9420、根本原因同定のための0.9643を達成し、LLMがフレキなレポートをトリアージし、量子ソフトウェアにおける彼らの根本原因を理解するための実用的なサポートを提供できることを示した。
拡張されたデータセットと自動パイプラインは、量子ソフトウェアエンジニアリングコミュニティのための再利用可能なアーティファクトを提供する。
今後の研究は、検出の堅牢性を改善し、量子フレキテストの自動修復を探求することに集中する。
関連論文リスト
- Detecting Flaky Tests in Quantum Software: A Dynamic Approach [4.46640294257026]
コードや環境の変更なしに非決定的に通過または失敗する不安定なテストは、ソフトウェアの信頼性に深刻な脅威をもたらす。
本稿では,量子ソフトウェアにおけるフレキテストの大規模動的評価について述べる。
コントロールされた環境で、23リリースにまたがって1万回のQiskit Terraテストスイートを実行しました。
論文 参考訳(メタデータ) (2025-12-19T21:47:31Z) - Identifying Flaky Tests in Quantum Code: A Machine Learning Approach [5.323578182914324]
量子システムの基本的な特徴である不確定性は、量子プログラムにおけるフレキテストの可能性を高める。
量子プログラムにおけるフレキなテストを自動的に検出するために,複数の機械学習モデルを活用する,新しい機械学習プラットフォームを提案する。
論文 参考訳(メタデータ) (2025-02-06T19:43:51Z) - Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。
量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文 参考訳(メタデータ) (2024-10-31T02:43:04Z) - Quantum Patch-Based Autoencoder for Anomaly Segmentation [44.99833362998488]
画像の異常セグメンテーションのためのパッチベースの量子オートエンコーダ(QPB-AE)を提案する。
QPB-AEは、組み込まれた入力パッチの量子状態を再構成し、測定から直接異常マップを計算する。
複数のデータセットとパラメータ構成でその性能を評価する。
論文 参考訳(メタデータ) (2024-04-26T08:42:58Z) - QuanTest: Entanglement-Guided Testing of Quantum Neural Network Systems [45.18451374144537]
量子ニューラルネットワーク(QNN)は、ディープラーニング(DL)原理と量子力学の基本理論を組み合わせて、量子加速による機械学習タスクを実現する。
QNNシステムは従来の量子ソフトウェアと古典的なDLシステムとは大きく異なり、QNNテストにとって重要な課題となっている。
QNNシステムにおける潜在的誤動作を明らかにするために,量子絡み合い誘導型対向テストフレームワークであるQuanTestを提案する。
論文 参考訳(メタデータ) (2024-02-20T12:11:28Z) - QuCAT: A Combinatorial Testing Tool for Quantum Software [43.8945621250487]
本稿では,量子プログラムのテストを行う量子ソフトウェアテストツールQuCATを紹介する。
最初の機能によって、ツールは与えられた強度のテストスイートを生成する。
2つ目の機能では、障害がトリガーされるまで強度を増してテストスイートを生成する。
論文 参考訳(メタデータ) (2023-08-31T20:17:38Z) - Identifying Flakiness in Quantum Programs [5.592360872268223]
14の量子ソフトウェアリポジトリのうち12つで、不安定なテストが見られます。
8つの原因群と7つの共通解を持つ46の異なるフレキ試験報告を同定した。
この研究は、量子プログラムにおけるフレキなテストの解決に関する有益な洞察を提供するため、実践者に興味を持つかもしれない。
論文 参考訳(メタデータ) (2023-02-07T04:55:34Z) - Validation tests of GBS quantum computers give evidence for quantum
advantage with a decoherent target [62.997667081978825]
複数モードデータの検証に指紋としてグループカウント確率の正P位相空間シミュレーションを用いる。
偽データを解き放つ方法を示し、これを古典的なカウントアルゴリズムに適用する。
論文 参考訳(メタデータ) (2022-11-07T12:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。