論文の概要: Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers
- arxiv url: http://arxiv.org/abs/2603.09453v1
- Date: Tue, 10 Mar 2026 10:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.219436
- Title: Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers
- Title(参考訳): 変分ルーティング: 校正混合変圧器のためのスケーラブルベイズフレームワーク
- Authors: Albus Yizhuo Li, Matthew Wicker,
- Abstract要約: 我々は,MoE層における不確かさをモデル化するためのベイズ的構造化手法であるVMoER(Sariformal Mixture-of-Experts Routing)を導入する。
VMoERは、一般的に決定論的ルーティングネットワークによって行われるエキスパート選択ステージへの推論を限定する。
試験された基礎モデル全体で、VMoERはノイズ下でのルーティングを38%改善し、配布外AUROCを12%向上させた。
- 参考スコア(独自算出の注目度): 5.534626267734823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are increasingly being deployed in contexts where understanding the uncertainty of their outputs is critical to ensuring responsible deployment. While Bayesian methods offer a principled approach to uncertainty quantification, their computational overhead renders their use impractical for training or inference at foundation model scale. State-of-the-art models achieve parameter counts in the trillions through carefully engineered sparsity including Mixture-of-Experts (MoE) layers. In this work, we demonstrate calibrated uncertainty at scale by introducing Variational Mixture-of-Experts Routing (VMoER), a structured Bayesian approach for modelling uncertainty in MoE layers. VMoER confines Bayesian inference to the expert-selection stage which is typically done by a deterministic routing network. We instantiate VMoER using two inference strategies: amortised variational inference over routing logits and inferring a temperature parameter for stochastic expert selection. Across tested foundation models, VMoER improves routing stability under noise by 38\%, reduces calibration error by 94\%, and increases out-of-distribution AUROC by 12\%, while incurring less than 1\% additional FLOPs. These results suggest VMoER offers a scalable path toward robust and uncertainty-aware foundation models.
- Abstract(参考訳): ファンデーションモデルは、アウトプットの不確実性を理解することが、責任あるデプロイメントを保証するために重要である状況において、ますます多くデプロイされています。
ベイズ法は不確実性定量化に対する原則的なアプローチを提供するが、その計算オーバーヘッドは基礎モデルスケールでのトレーニングや推論に不実用性を与える。
最先端モデルは、Mixture-of-Experts (MoE)レイヤを含む慎重に設計されたスパーシリティを通じて、数兆のパラメータ数を達成する。
本研究では,MoE層における不確かさをモデル化する構造的ベイズ的手法VMoERを導入することで,大規模不確かさのキャリブレーションを実証する。
VMoERはベイズ的推論を、決定論的ルーティングネットワークによって行われる専門家選択段階に限定する。
我々はVMoERを2つの推論戦略を用いてインスタンス化する: ルーティングロジット上の変分推論と確率的専門家選択のための温度パラメータの推測である。
試験された基礎モデル全体では、VMoERはノイズ下でのルーティング安定性を38\%改善し、キャリブレーションエラーを94\%削減し、配布外AUROCを12\%増加させ、追加のFLOPを1\%未満追加する。
これらの結果は、VMoERが堅牢で不確実性を認識した基盤モデルへのスケーラブルなパスを提供することを示唆している。
関連論文リスト
- Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Rethinking Test-Time Training: Tilting The Latent Distribution For Few-Shot Source-Free Adaptation [3.5808917363708743]
完全に凍結したモデル体制下で, 数ショット分類のための基礎モデルの試験時間適応について検討した。
本稿では,エンコーダによって誘導される潜伏埋め込み分布に対して,測定値の変更を行うことにより,新しいタスクに予測を適応させる,最初のトレーニング不要推論手法を提案する。
論文 参考訳(メタデータ) (2026-02-02T18:17:29Z) - Bayesian Mixture of Experts For Large Language Models [2.889541910837398]
本稿では,Mixture-of-Expertsアーキテクチャに基づく大規模言語モデル(LLM)に対するポストホック不確実性推定フレームワークを提案する。
Bayesian-MoEは、各専門家の2番目の線形層に構造化ラプラス近似を適用し、キャリブレーションされた不確実性推定を可能にする。
Qwen1.5-MoEとDeepSeek-MoEによる常識推論ベンチマークの実験では、ベイジアン-MoEは期待キャリブレーション誤差(ECE)と負のログライクリーフ(NLL)の両方をベースライン上で改善することを示した。
論文 参考訳(メタデータ) (2025-11-12T04:24:20Z) - Bayesian Mixture-of-Experts: Towards Making LLMs Know What They Don't Know [0.0]
Mixture-of-Experts (MoE) は大規模で効率的な大規模言語モデルの構築を可能にした。
標準的な決定論的ルーティングメカニズムは、重大な制限を提示する。
この論文では、構造化されたtextbfBayesian MoEルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:07:35Z) - Diffusion Models for Solving Inverse Problems via Posterior Sampling with Piecewise Guidance [52.705112811734566]
断片的なガイダンススキームを用いて,逆問題を解決するための新しい拡散型フレームワークが導入された。
提案手法は問題に依存しず,様々な逆問題に容易に適応できる。
このフレームワークは, (4時間), (8時間) の超分解能タスクに対して, (23%), (24%) および (24%) の無作為マスクを塗布する場合の (25%) の推論時間を短縮する。
論文 参考訳(メタデータ) (2025-07-22T19:35:14Z) - Federated Bayesian Deep Learning: The Application of Statistical Aggregation Methods to Bayesian Models [0.9940108090221528]
集約戦略は、分散決定論的モデルの重みとバイアスをプールまたはフューズするために開発されている。
決定論的モデルに対するFLスキームに付随するアグリゲーション手法の簡単な適用は不可能か、あるいは準最適性能をもたらすかを示す。
論文 参考訳(メタデータ) (2024-03-22T15:02:24Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。