Fugu-MT 論文翻訳(概要): Bug Classification in Quantum Software: A Rule-Based Framework and Its Evaluation

論文の概要: Bug Classification in Quantum Software: A Rule-Based Framework and Its Evaluation

arxiv url: http://arxiv.org/abs/2506.10397v1
Date: Thu, 12 Jun 2025 06:42:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.610205
Title: Bug Classification in Quantum Software: A Rule-Based Framework and Its Evaluation
Title（参考訳）: 量子ソフトウェアにおけるバグ分類:ルールベースのフレームワークとその評価
Authors: Mir Mohammad Yousuf, Shabir Ahmad Sofi,
Abstract要約: 本稿では,量子ソフトウェアリポジトリの問題をバグタイプ,カテゴリ,重大度,品質特性によって分類するフレームワークを提案する。フレームワークは85.21%の精度で、F1スコアは0.7075から0.8393までである。 1,550の量子特化バグのレビューでは、半分以上が量子回路レベルの問題であり、その後にゲートエラーとハードウェア関連の問題があった。
参考スコア（独自算出の注目度）: 1.1510009152620668
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate classification of software bugs is essential for improving software quality. This paper presents a rule-based automated framework for classifying issues in quantum software repositories by bug type, category, severity, and impacted quality attributes, with additional focus on quantum-specific bug types. The framework applies keyword and heuristic-based techniques tailored to quantum computing. To assess its reliability, we manually classified a stratified sample of 4,984 issues from a dataset of 12,910 issues across 36 Qiskit repositories. Automated classifications were compared with ground truth using accuracy, precision, recall, and F1-score. The framework achieved up to 85.21% accuracy, with F1-scores ranging from 0.7075 (severity) to 0.8393 (quality attribute). Statistical validation via paired t-tests and Cohen's Kappa showed substantial to almost perfect agreement for bug type (k = 0.696), category (k = 0.826), quality attribute (k = 0.818), and quantum-specific bug type (k = 0.712). Severity classification showed slight agreement (k = 0.162), suggesting room for improvement. Large-scale analysis revealed that classical bugs dominate (67.2%), with quantum-specific bugs at 27.3%. Frequent bug categories included compatibility, functional, and quantum-specific defects, while usability, maintainability, and interoperability were the most impacted quality attributes. Most issues (93.7%) were low severity; only 4.3% were critical. A detailed review of 1,550 quantum-specific bugs showed that over half involved quantum circuit-level problems, followed by gate errors and hardware-related issues.
Abstract（参考訳）: ソフトウェア品質を改善するためには、ソフトウェアのバグの正確な分類が不可欠です。本稿では,量子ソフトウェアリポジトリの問題をバグタイプ,カテゴリ,重大度,品質特性によって分類するルールベースの自動フレームワークを提案する。このフレームワークは、量子コンピューティングに適したキーワードとヒューリスティックベースのテクニックを適用している。信頼性を評価するため,36のQiskitリポジトリにわたる12,910件のデータセットから,4,984件の階層化サンプルを手作業で分類した。自動分類は、精度、精度、リコール、F1スコアを用いて、地上の真理と比較した。このフレームワークは85.21%の精度を達成し、F1スコアは0.7075から0.8393まで変化した。ペアt-testとCohen's Kappaによる統計的検証では、バグタイプ(k = 0.696)、カテゴリ(k = 0.826)、品質属性(k = 0.818)、量子固有のバグタイプ(k = 0.712)について、ほぼ完全な一致を示した。重症度分類では軽微な一致(k = 0.162)を示し,改善の余地が示唆された。大規模分析の結果、古典的なバグが67.2%を占め、量子固有のバグは27.3%であった。多くのバグカテゴリには、互換性、機能、量子固有の欠陥が含まれ、ユーザビリティ、保守性、相互運用性が最も影響を受けていた。ほとんどの問題(93.7%)は深刻度が低く、4.3%に過ぎなかった。 1,550の量子特化バグの詳細なレビューでは、半分以上が量子回路レベルの問題であり、その後にゲートエラーとハードウェア関連の問題があった。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
Characterizing Bugs and Quality Attributes in Quantum Software: A Large-Scale Empirical Study [0.6445605125467574]
本研究は,2012年から2024年までの123個のオープンソース量子レポジトリを対象とした,ソフトウェアバグのエコシステムスケールの経時的解析を行った。フルスタックのライブラリとコンパイラは、回路、ゲート、トランスパイレーションに関連する問題のために最もバグの多いカテゴリである。暗号、実験コンピューティング、コンパイラツールチェーンにおける高重度バグクラスタ。
論文参考訳（メタデータ） (2025-12-31T06:05:49Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Improving IR-based Bug Localization with Semantics-Driven Query Reduction [0.9298382208776371]
我々は、バグレポートに対してソフトウェアバグをローカライズするための新しいアプローチであるIQLocを提案する。我々は、トランスフォーマーベースのモデルのプログラム意味論的理解を活用して、コードの不確実性を推論する。 IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善する。
論文参考訳（メタデータ） (2025-10-06T03:43:38Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [56.27361644734853]
知識グラフ質問回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文参考訳（メタデータ） (2025-05-29T14:44:52Z)
Practical estimation of the optimal classification error with soft labels and calibration [52.1410307583181]
我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
論文参考訳（メタデータ） (2025-05-27T06:04:57Z)
Buggin: Automatic intrinsic bugs classification model using NLP and ML [0.0]
本稿では、自然言語処理(NLP)技術を用いて、固有のバグを自動的に識別する。本稿では,バグレポートのタイトルと記述文に適用した2つの埋め込み手法であるseBERTとTF-IDFを用いる。結果として得られる埋め込みは、Support Vector Machine、Logistic Regression、Decision Tree、Random Forest、K-Nearest Neighborsといった、確立された機械学習アルゴリズムにフィードバックされる。
論文参考訳（メタデータ） (2025-04-02T16:23:08Z)
QuCheck: A Property-based Testing Framework for Quantum Programs in Qiskit [0.5735035463793009]
プロパティベースのテストはQSharpCheckを使ってQ#の量子プログラムに提案されている。我々はQiskitにおける拡張プロパティベースのテストフレームワークQuCheckを提案する。
論文参考訳（メタデータ） (2025-03-28T17:30:09Z)
Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.868594148443215]
本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。 UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文参考訳（メタデータ） (2025-03-13T02:21:04Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文参考訳（メタデータ） (2024-06-18T01:51:16Z)
Analyzing Quantum Programs with LintQ: A Static Analysis Framework for Qiskit [21.351834312054844]
本稿では,量子プログラムのバグを検出するための静的解析フレームワークLintQを提案する。我々のアプローチは、基礎となる量子コンピューティングプラットフォームを参照することなく、量子コンピューティングの共通概念を推論するために設計された一連の抽象化によって実現されている。提案手法は,実世界の7,568個のQiskitベースの量子プログラムを新たに収集したデータセットに適用し,LintQが様々なプログラミング問題を効果的に同定することを示す。
論文参考訳（メタデータ） (2023-10-01T16:36:09Z)
An Empirical Study of Bugs in Quantum Machine Learning Frameworks [5.868747298750261]
人気の高い9つのQMLフレームワークの22のオープンソースリポジトリから収集された391の実際のバグを調査した。バグの28%は、誤ったユニタリ行列の実装など、量子固有である。われわれはQMLプラットフォームで5つの症状と9つの根本原因の分類を手作業で抽出した。
論文参考訳（メタデータ） (2023-06-10T07:26:34Z)
An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文参考訳（メタデータ） (2022-06-26T17:07:23Z)
Experimental violations of Leggett-Garg's inequalities on a quantum computer [77.34726150561087]
単一および多ビット系におけるLeggett-Garg-Bellの不等式違反を実験的に観察する。本分析では, 量子プラットフォームの限界に注目し, 上記の相関関数は, 量子ビットの数や回路深さが大きくなるにつれて, 理論的予測から逸脱することを示した。
論文参考訳（メタデータ） (2021-09-06T14:35:15Z)
Solving correlation clustering with QAOA and a Rydberg qudit system: a full-stack approach [94.37521840642141]
量子近似最適化アルゴリズム(QAOA)とクォーディットを用いた相関クラスタリング問題について検討する。具体的には、中性原子量子コンピュータを検討し、相関クラスタリングのためのフルスタックアプローチを提案する。ゲート数によって定量化されるように、quditの実装はqubitエンコーディングよりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-22T11:07:38Z)
Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文参考訳（メタデータ） (2020-06-09T09:58:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。