論文の概要: Claim against Measurement: Statistical Artefacts in Quantum Error Mitigation Benchmarks
- arxiv url: http://arxiv.org/abs/2605.29872v1
- Date: Thu, 28 May 2026 12:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.255003
- Title: Claim against Measurement: Statistical Artefacts in Quantum Error Mitigation Benchmarks
- Title(参考訳): 測定に対する主張:量子エラー緩和ベンチマークにおける統計的成果
- Authors: Dominik Köster, Wolfgang Mauerer,
- Abstract要約: 統計的厳密さ,錯覚,報告品質を網羅する8基準フレームワークを用いて,近年の81のQEM論文を体系的にレビューした。
適用された論文の中で、推論手法は15(25%)しか使用せず、25(42%)は、請求された効果が統計的に支持されているかどうかを調べることなく、記述的にのみ不確実性を報告している。
72時間にわたる実ハードウェアの研究では、時間的ドリフトだけで同じZNE構成を3倍以上の大きさにすることができる。
- 参考スコア(独自算出の注目度): 1.1683938179815823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: QEM is widely regarded as a plausible bridge from NISQ devices to FTQC. Yet the empirical studies used to assess the effectiveness of QEM techniques on concrete problems have received comparatively little scrutiny with respect to the validity of their conclusions. We systematically review 81 recent QEM papers using an eight-criterion framework covering statistical rigour, reproducibility, and reporting quality. Among the applicable papers, only 15 (25%) use inferential methods, while 25 (42%) report uncertainty only descriptively, without testing whether the claimed effects are statistically supported. To demonstrate the consequences of these omissions, we use ZNE as a representative and widely used case study and identify two compounding sources of artefacts in current QEM benchmarks. First, we observe parameter sensitivity: in a 132-configuration sweep, implicitly assumed choices such as scale factors, extrapolation method, and hardware calibration are not merely incidental but active, with variations changing conclusions from statistically significant improvement to statistically significant degradation. Second, we identify a drift-induced effectiveness illusion: in a 72-hour longitudinal study on real hardware, temporal drift alone can make the same ZNE configuration exhibit an effect size more than three times as large, depending solely on when it is executed, and also drastically reduces the effective number of independent observations. These findings do not imply that QEM methods are intrinsically unsound; rather, they show that current evaluation practice can make mitigation performance appear more robust than the evidence warrants. We therefore propose minimum reporting standards for QEM evaluations, including explicit parameter documentation, robustness checks, longitudinal drift assessment, and inferential statistical testing with effect-size reporting.
- Abstract(参考訳): QEMは、NISQデバイスからFTQCへのもっともらしいブリッジとして広く見なされている。
しかし, 具体的な問題に対するQEM手法の有効性を評価するための実証的研究は, 結論の妥当性について, 比較的精査を受けていない。
統計的厳密性,再現性,報告品質を網羅した8基準フレームワークを用いて,近年の81のQEM論文を体系的にレビューした。
適用された論文の中で、推論手法は15(25%)しか使用せず、25(42%)は、請求された効果が統計的に支持されているかどうかを調べることなく、記述的にのみ不確実性を報告している。
これらの欠落の結果を示すために、ZNEを代表的かつ広く用いられているケーススタディとして使用し、現在のQEMベンチマークで2つの人工物の複合源を同定する。
まず, 132-configuration sweepにおいて, スケールファクタや外挿法, ハードウェアキャリブレーションなどの暗黙的に仮定される選択は, 単なる偶発的ではなく, 能動的であり, 統計的に有意な改善から統計的に有意な劣化まで, 結論が変化する。
第2に、ドリフト誘起効果の錯覚を特定する: 72時間にわたる実ハードウェアの研究において、時間的ドリフトだけで同じZNE構成を、実行時の3倍以上のエフェクトサイズにすることができる。
これらの結果は,QEM法が本質的に不健全であることを示すものではない。
そこで我々は,QEM評価の最小基準として,明示的パラメータドキュメンテーション,ロバスト性チェック,長手ドリフト評価,実測値を用いた推論統計的テストを提案する。
関連論文リスト
- Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks [45.86413490112477]
大規模言語モデル(LLM)は信頼性に敏感なアプリケーションで使用される。
厳密な信頼境界を持つ稀な失敗確率を推定するには、違法に大きなLSM推論サイズが必要である。
そこで本研究では,クロスエントロピー手法を用いて,故障確率入力に集中したサンプリング分布を学習する。
論文 参考訳(メタデータ) (2026-05-11T20:23:44Z) - Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Effect-Level Validation for Causal Discovery [1.8192444294441061]
大規模テレメトリデータに因果発見を適用して,ユーザの介入効果を推定する。
しかし,フィードバック駆動型システムにおける意思決定の信頼性は高い。
本稿では,発見されたグラフを構造仮説として扱う,効果中心のアクセシビリティ優先フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T07:26:55Z) - Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - VAR-MATH: Probing True Mathematical Reasoning in LLMS via Symbolic Multi-Instance Benchmarks [29.3214384382719]
近年の強化学習の進歩により,LLMの数学的推論能力は大幅に向上した。
これらの利得は、ランダムや逆の報酬のような欠陥のある信号で訓練されたモデルであっても、しばしば持続する。
このような改善は真の推論を反映しているのか、それとも単にベンチマーク固有のパターンに過度に適合した成果物なのか?
固定数値問題をパラメータ化テンプレートに変換するシンボル評価フレームワークであるVAR-MATHを提案する。
論文 参考訳(メタデータ) (2025-07-17T08:10:55Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - UQ-ARMED: Uncertainty quantification of adversarially-regularized mixed
effects deep learning for clustered non-iid data [0.6719751155411076]
この研究は、モデル適合性、固定効果共分散係数、予測信頼度について、容易に解釈可能な統計メトリクスを作成する能力を示す。
本実験では,UQ法が有益であるだけでなく,いくつかのUQ法が元のARMED法の性能を維持している。
論文 参考訳(メタデータ) (2022-11-29T02:50:48Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。