論文の概要: Singular Bayesian Neural Networks
- arxiv url: http://arxiv.org/abs/2602.00387v1
- Date: Fri, 30 Jan 2026 23:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.151916
- Title: Singular Bayesian Neural Networks
- Title(参考訳): 特異ベイズニューラルネットワーク
- Authors: Mame Diarra Toure, David A. Stephens,
- Abstract要約: ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian neural networks promise calibrated uncertainty but require $O(mn)$ parameters for standard mean-field Gaussian posteriors. We argue this cost is often unnecessary, particularly when weight matrices exhibit fast singular value decay. By parameterizing weights as $W = AB^{\top}$ with $A \in \mathbb{R}^{m \times r}$, $B \in \mathbb{R}^{n \times r}$, we induce a posterior that is singular with respect to the Lebesgue measure, concentrating on the rank-$r$ manifold. This singularity captures structured weight correlations through shared latent factors, geometrically distinct from mean-field's independence assumption. We derive PAC-Bayes generalization bounds whose complexity term scales as $\sqrt{r(m+n)}$ instead of $\sqrt{m n}$, and prove loss bounds that decompose the error into optimization and rank-induced bias using the Eckart-Young-Mirsky theorem. We further adapt recent Gaussian complexity bounds for low-rank deterministic networks to Bayesian predictive means. Empirically, across MLPs, LSTMs, and Transformers on standard benchmarks, our method achieves predictive performance competitive with 5-member Deep Ensembles while using up to $15\times$ fewer parameters. Furthermore, it substantially improves OOD detection and often improves calibration relative to mean-field and perturbation baselines.
- Abstract(参考訳): ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
このコストは、特に重量行列が高速な特異値減衰を示す場合、しばしば不要であると主張する。
重みを $W = AB^{\top}$ と $A \in \mathbb{R}^{m \times r}$, $B \in \mathbb{R}^{n \times r}$ とパラメータ化することで、ルベーグ測度に関して特異な後続を誘導し、ランク=r$多様体に集中する。
この特異性は、平均場の独立仮定と幾何学的に異なる共有潜在因子を通して構造的重量相関をキャプチャする。
我々は、複雑性項が$\sqrt{r(m+n)}$にスケールするPAC-Bayes一般化境界を$\sqrt{m n}$の代わりに導き、誤差を最適化とエッカート・ヤング=ミルスキーの定理を用いてランク誘導バイアスに分解する損失境界を証明する。
我々はさらに、低ランク決定論的ネットワークに対する最近のガウス複雑性境界をベイズ予測手段に適用する。
MLP,LSTM,Transformerを標準ベンチマークで比較したところ,提案手法は5員のDeep Ensemblesと競合する予測性能を実現し,最大15\times$より少ないパラメータを使用することができた。
さらに、OOD検出を大幅に改善し、平均場および摂動ベースラインに対する校正をしばしば改善する。
関連論文リスト
- Shrinkage to Infinity: Reducing Test Error by Inflating the Minimum Norm Interpolator in Linear Models [0.0]
Hastie et al. (2022) は高次元線形回帰 $y=betaTx + epsilon$ においてリッジ正則化が必須であることを発見した。
高い異方性共分散と$d/n$の線形回帰を正確に観測する。
最小$ell$補間器を1より大きい定数でスケールアップ(または膨らませる)するだけで一般化誤差が改善できることが分かる。
論文 参考訳(メタデータ) (2025-10-22T03:30:27Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Precise Asymptotics of Bagging Regularized M-estimators [20.077783679095443]
我々は,アンサンブル推定器の正方形予測リスクを,正規化M値推定器のサブタグ化(サブサンプルブートストラップ集約)により特徴付ける。
我々の分析の鍵は、重なり合うサブサンプル上の推定値と残差との相関関係の結合挙動に関する新しい結果である。
サブサンプルサイズ,アンサンブルサイズ,正規化の併用最適化は,全データに対してのみ,正規化器の最適化を著しく上回る。
論文 参考訳(メタデータ) (2024-09-23T17:48:28Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Consistent Estimation for PCA and Sparse Regression with Oblivious
Outliers [13.244654316770815]
我々は効率よく計算可能で一貫した推定器を設計する機械を開発する。
スパース回帰では、最適なサンプルサイズ$ngsim (klog d)/alpha2$の整合性を達成する。
PCAの文脈では、パラメータ行列上の広いスパイキネス仮定の下で最適な誤差を保証する。
論文 参考訳(メタデータ) (2021-11-04T15:59:44Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。