論文の概要: Making Foundation Models Probabilistic via Singular Value Ensembles
- arxiv url: http://arxiv.org/abs/2601.22068v1
- Date: Thu, 29 Jan 2026 18:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.069607
- Title: Making Foundation Models Probabilistic via Singular Value Ensembles
- Title(参考訳): 特異値アンサンブルによる基礎モデルの確率化
- Authors: Mehmet Ozgur Turkoglu, Dominik J. Mühlematter, Alexander Becker, Konrad Schindler, Helge Aasen,
- Abstract要約: ファンデーションモデルは機械学習において支配的なパラダイムとなり、大規模な事前学習を通じて様々なタスクにまたがる顕著なパフォーマンスを実現している。
不確実性を定量化し、独立したモデルのアンサンブルを訓練する標準的なアプローチは、アンサンブルサイズと線形にスケールする禁制的な計算コストを発生させる。
本稿では,単純だが強力なコア仮定に基づいて,パラメータ効率の高い暗黙アンサンブル手法であるSVEを提案する。
本研究では,SVEの不確かさの定量化が,基本モデルのパラメータ数を1%以下に増加させながら,明示的な深層アンサンブルに匹敵することを示す。
- 参考スコア(独自算出の注目度): 56.4174499669573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have become a dominant paradigm in machine learning, achieving remarkable performance across diverse tasks through large-scale pretraining. However, these models often yield overconfident, uncalibrated predictions. The standard approach to quantifying epistemic uncertainty, training an ensemble of independent models, incurs prohibitive computational costs that scale linearly with ensemble size, making it impractical for large foundation models. We propose Singular Value Ensemble (SVE), a parameter-efficient implicit ensemble method that builds on a simple, but powerful core assumption: namely, that the singular vectors of the weight matrices constitute meaningful subspaces of the model's knowledge. Pretrained foundation models encode rich, transferable information in their weight matrices. If the singular vectors are indeed meaningful (orthogonal) "knowledge directions". To obtain a model ensemble, we modulate only how strongly each direction contributes to the output. Rather than learning entirely new parameters, we freeze the singular vectors and only train per-member singular values that rescale the contribution of each direction in that shared knowledge basis. Ensemble diversity emerges naturally as stochastic initialization and random sampling of mini-batches during joint training cause different members to converge to different combinations of the same underlying knowledge. SVE achieves uncertainty quantification comparable to explicit deep ensembles while increasing the parameter count of the base model by less than 1%, making principled uncertainty estimation accessible in resource-constrained settings. We validate SVE on NLP and vision tasks with various different backbones and show that it improves calibration while maintaining predictive accuracy.
- Abstract(参考訳): ファンデーションモデルは機械学習において支配的なパラダイムとなり、大規模な事前学習を通じて様々なタスクにまたがる顕著なパフォーマンスを実現している。
しかし、これらのモデルはしばしば過度に信頼され、未確認の予測をもたらす。
疫学的な不確実性を定量化し、独立したモデルのアンサンブルを訓練する標準的なアプローチは、アンサンブルサイズと線形にスケールする禁止的な計算コストを発生させ、大きな基盤モデルにとって実用的ではない。
重み行列の特異ベクトルがモデルの知識の有意義な部分空間を構成するという,単純だが強力なコア仮定に基づくパラメータ効率の強い暗黙アンサンブル手法であるSVEを提案する。
事前訓練された基礎モデルは、その重量行列の豊かで伝達可能な情報を符号化する。
特異ベクトルが真に意味のある(直交的な)「知識方向」であれば、
モデルアンサンブルを得るために、各方向が出力にどれだけ強く寄与するかを変調する。
全く新しいパラメータを学ぶのではなく、特異ベクトルを凍結し、共有知識ベースで各方向の寄与を再スケールするメンバーごとの特異値のみを訓練する。
アンサンブルの多様性は、ジョイントトレーニング中の確率的初期化とランダムサンプリングによって自然に出現し、異なるメンバーが同じ基礎知識の異なる組み合わせに収束する。
SVEは、明示的な深層アンサンブルに匹敵する不確実性定量化を達成しつつ、基本モデルのパラメータ数を1%以下に増やし、資源制約された設定で利用できる原則的不確実性推定を実現する。
我々は,NLPおよび視覚タスクのSVEを様々なバックボーンで検証し,予測精度を維持しながらキャリブレーションを改善することを示す。
関連論文リスト
- Model Merging via Multi-Teacher Knowledge Distillation [11.543771846135021]
モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。
我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
論文 参考訳(メタデータ) (2025-12-24T17:10:44Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。