論文の概要: Paired Seed Evaluation: Statistical Reliability for Learning-Based Simulators
- arxiv url: http://arxiv.org/abs/2512.24145v1
- Date: Tue, 30 Dec 2025 11:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.363247
- Title: Paired Seed Evaluation: Statistical Reliability for Learning-Based Simulators
- Title(参考訳): Paired Seed Evaluation:ラーニングベースシミュレータの統計的信頼性
- Authors: Udit Sharma,
- Abstract要約: 機械学習システムは決定論的にランダムであり、シードされた擬似乱数生成器は実行全体にわたって同一の実現を生成する。
競合するシステムを同一のランダムなシードで評価するペア型シード評価設計を定式化する。
これにより、より厳密な信頼区間、高い統計力、固定された計算予算での効果的なサンプルサイズゲインが得られる。
- 参考スコア(独自算出の注目度): 0.16969585732319237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning systems appear stochastic but are deterministically random, as seeded pseudorandom number generators produce identical realisations across executions. Learning-based simulators are widely used to compare algorithms, design choices, and interventions under such dynamics, yet evaluation outcomes often exhibit high variance due to random initialisation and learning stochasticity. We analyse the statistical structure of comparative evaluation in these settings and show that standard independent evaluation designs fail to exploit shared sources of randomness across alternatives. We formalise a paired seed evaluation design in which competing systems are evaluated under identical random seeds, inducing matched realisations of stochastic components and strict variance reduction whenever outcomes are positively correlated at the seed level. This yields tighter confidence intervals, higher statistical power, and effective sample size gains at fixed computational budgets. Empirically, seed-level correlations are typically large and positive, producing order-of-magnitude efficiency gains. Paired seed evaluation is weakly dominant in practice, improving statistical reliability when correlation is present and reducing to independent evaluation without loss of validity when it is not.
- Abstract(参考訳): 機械学習システムは確率的に見えるが、シードされた擬似乱数生成器が実行中に同じ実現を生成するため、決定論的にランダムである。
学習ベースシミュレータは、アルゴリズム、設計選択、介入をそのような力学の下で比較するために広く用いられているが、評価結果はランダムな初期化と学習確率によってしばしば高いばらつきを示す。
これらの設定において比較評価の統計的構造を解析し、標準独立評価設計が代替品間のランダム性の共有源を利用できないことを示す。
我々は,同一のランダムな種子で競合システムを評価し,一致した確率成分の実現を誘導し,結果がシードレベルで正の相関を持つ場合の厳密な分散低減を図ったペア型種子評価設計を定式化する。
これにより、より厳密な信頼区間、高い統計力、固定された計算予算での効果的なサンプルサイズゲインが得られる。
経験的には、種子レベルの相関は一般的に大きく、正の相関であり、次数-次効率の上昇をもたらす。
ペアシード評価は実際には弱い支配的であり、相関が存在する場合の統計的信頼性を高め、有効性が失われることなく独立した評価に還元する。
関連論文リスト
- Robust Sampling for Active Statistical Inference [11.929391566298841]
アクティブ統計的推論はAI支援データ収集を用いた新しい推論手法である。
アクティブな統計的推測のためのロバストなサンプリング戦略を提案する。
本稿では,本手法の有効性を実データに示す。
論文 参考訳(メタデータ) (2025-11-12T05:18:36Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Communication-Efficient Distributed Estimation and Inference for Cox's Model [4.731404257629232]
我々は, 高次元のスパースコックス比例ハザードモデルにおいて, 推定と推定のための通信効率のよい反復分散アルゴリズムを開発した。
高次元ハザード回帰係数の線形結合に対する信頼区間を構築するために,新しい縮退法を提案する。
我々は、デコラートスコアテストに基づく任意の座標要素に対して、有効かつ強力な分散仮説テストを提供する。
論文 参考訳(メタデータ) (2023-02-23T15:50:17Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。