論文の概要: A Tale of Two Variances: When Single-Seed Benchmarks Fail in Bayesian Deep Learning
- arxiv url: http://arxiv.org/abs/2604.23114v1
- Date: Sat, 25 Apr 2026 02:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.163916
- Title: A Tale of Two Variances: When Single-Seed Benchmarks Fail in Bayesian Deep Learning
- Title(参考訳): 2つの変数の物語:ベイジアンディープラーニングにおけるシングルシードベンチマークの失敗
- Authors: Qishi Zhan, Minxuan Hu, Liang He, Guansu Wang, Jiaxin Liu,
- Abstract要約: 局所CRPS分散は単列推定誤差の直接信号を提供する。
パワーロー適合品質と単調性は、トラジェクトリ正則性のコンパクトなメソッドレベルの要約を提供する。
- 参考スコア(独自算出の注目度): 10.891872788947298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In limited-data settings, a single endpoint mean of an evaluation metric such as the Continuous Ranked Probability Score (CRPS) is itself a random variable, yet it is routinely reported as if it were a stable property of the method. We study when this practice fails. Using 50 independent repetitions across six regression datasets, we show that CRPS variance trajectories differ substantially across methods and are not always well described by a smooth power-law decay. Methods with a learned heteroscedastic variance head, namely MAP and Deep Ensembles, can develop pronounced, reproducible variance peaks at intermediate training sizes on real datasets, whereas MC Dropout and Bayes by Backprop typically show smooth variance contraction. These peaks have direct practical consequences: at the variance peak on Seoul Bike, the relative RMSE of a single-seed MAP estimate reaches 93.6\%, and the probability of falling within \(\pm 10\%\) of the repeated-run mean drops to 5.9\%. We show that local CRPS variance provides a direct signal of single-seed estimation error, with Spearman correlations above 0.96 on every real dataset. Power-law fit quality and monotonicity together provide compact method-level summaries of trajectory regularity. Finally, replacing the standard heteroscedastic objective with \(β\)-NLL substantially reduces the irregular behavior, consistent with the view that the heteroscedastic training objective contributes to the instability. Practitioners should report trajectory summaries alongside endpoint means and concentrate repeated evaluation in high-variance regions.
- Abstract(参考訳): 限定データ設定では、CRPS(Continuous Ranked Probability Score)のような評価指標の単一エンドポイント平均は、それ自体ランダム変数であるが、メソッドの安定した性質であるかのように定期的に報告される。
私たちはこの練習がいつ失敗したか研究する。
6つの回帰データセット間で50個の独立した繰り返しを用いて、CRPS分散軌道がメソッド間で大きく異なることを示し、スムーズなパワー・ロー崩壊によって必ずしもよく説明されないことを示した。
学習された異方性分散ヘッド(MAPとDeep Ensembles)を持つ手法は、実際のデータセット上の中間トレーニングサイズで発音され再現可能な分散ピークを発生させることができるが、MC DropoutとBayes by Backpropは、通常、滑らかな分散収縮を示す。
これらのピークは、ソウル自転車のばらつきピークにおいて、単座MAP推定値の相対RMSEは93.6\%に達し、繰り返し発生する平均降水量は5.9\%となる。
局所CRPS分散は,実データセット毎に0.96以上のスピアマン相関を持つ単一シード推定誤差の直接信号を与えることを示す。
パワーロー適合品質と単調性は、トラジェクトリ正則性のコンパクトなメソッドレベルの要約を提供する。
最後に、標準的なヘテロスセダティックな目的を \(β\)-NLL に置き換えることで、不規則な振る舞いを著しく減らし、ヘテロスセダティックなトレーニング目的が不安定性に寄与するとする見解と一致する。
実践者は、終端手段とともに軌跡要約を報告し、高分散領域における繰り返し評価を集中的に行うべきである。
関連論文リスト
- Spatially Robust Inference with Predicted and Missing at Random Labels [2.5574009994099196]
交差フィットは空間分散推定器を歪ませ、不安定あるいは過度に保守的な信頼区間を生じる折りたたみレベルの相関を誘導することを示す。
また、折りたたみ雑音から依存を分離するジャックニフェ空間異方性と自動整合性(HAC)の分散補正を提案する。
論文 参考訳(メタデータ) (2026-03-11T23:14:21Z) - Computable Bernstein Certificates for Cross-Fitted Clipped Covariance Estimation [0.0]
計算可能なベルンシュタイン型偏差証明を備えたクロスフィットクリッピング共分散推定器を提案する。
結果として得られる手順は、緩やかな尾の規則性の下での有効ランクのような本質的な複雑性尺度に適応する。
論文 参考訳(メタデータ) (2026-02-15T06:53:40Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - An analysis of the noise schedule for score-based generative models [7.180235086275926]
スコアベース生成モデル(SGM)は、目標からのノイズ摂動サンプルのみを用いてスコア関数を学習することにより、目標データ分布を推定することを目的としている。
近年の文献では、ターゲットと推定分布の誤差を評価し、KL(Kulback-Leibler)の発散とワッサーシュタイン距離を通じて生成品質を測ることに重点を置いている。
対象と推定分布のKL分散の上限を時間依存ノイズスケジュールによって明確に設定する。
論文 参考訳(メタデータ) (2024-02-07T08:24:35Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Policy evaluation from a single path: Multi-step methods, mixing and
mis-specification [45.88067550131531]
無限水平$gamma$-discounted Markov rewardプロセスの値関数の非パラメトリック推定について検討した。
カーネルベースの多段階時間差推定の一般的なファミリーに対して、漸近的でない保証を提供する。
論文 参考訳(メタデータ) (2022-11-07T23:15:25Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。