論文の概要: Bayesian Mixture of Experts For Large Language Models
- arxiv url: http://arxiv.org/abs/2511.08968v1
- Date: Thu, 13 Nov 2025 01:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.331165
- Title: Bayesian Mixture of Experts For Large Language Models
- Title(参考訳): 大規模言語モデルのためのベイジアン混合専門家
- Authors: Maryam Dialameh, Hossein Rajabzadeh, Weiwei Zhang, Walid Ahmed, Hyock Ju Kwon,
- Abstract要約: 本稿では,Mixture-of-Expertsアーキテクチャに基づく大規模言語モデル(LLM)に対するポストホック不確実性推定フレームワークを提案する。
Bayesian-MoEは、各専門家の2番目の線形層に構造化ラプラス近似を適用し、キャリブレーションされた不確実性推定を可能にする。
Qwen1.5-MoEとDeepSeek-MoEによる常識推論ベンチマークの実験では、ベイジアン-MoEは期待キャリブレーション誤差(ECE)と負のログライクリーフ(NLL)の両方をベースライン上で改善することを示した。
- 参考スコア(独自算出の注目度): 2.889541910837398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Bayesian Mixture of Experts (Bayesian-MoE), a post-hoc uncertainty estimation framework for fine-tuned large language models (LLMs) based on Mixture-of-Experts architectures. Our method applies a structured Laplace approximation to the second linear layer of each expert, enabling calibrated uncertainty estimation without modifying the original training procedure or introducing new parameters. Unlike prior approaches, which apply Bayesian inference to added adapter modules, Bayesian-MoE directly targets the expert pathways already present in MoE models, leveraging their modular design for tractable block-wise posterior estimation. We use Kronecker-factored low-rank approximations to model curvature and derive scalable estimates of predictive uncertainty and marginal likelihood. Experiments on common-sense reasoning benchmarks with Qwen1.5-MoE and DeepSeek-MoE demonstrate that Bayesian-MoE improves both expected calibration error (ECE) and negative log-likelihood (NLL) over baselines, confirming its effectiveness for reliable downstream decision-making.
- Abstract(参考訳): 提案するBayesian Mixture of Experts (Bayesian-MoE) は,Mixture-of-Expertsアーキテクチャをベースとした,微調整型大規模言語モデル(LLM)のためのポストホック不確実性推定フレームワークである。
提案手法は,各エキスパートの第2線形層に構造化ラプラス近似を適用し,元のトレーニング手順を変更したり,新しいパラメータを導入することなく,キャリブレーションされた不確実性推定を可能にする。
ベイジアン推論を付加アダプタモジュールに適用する以前のアプローチとは異なり、ベイジアン-MoEはMoEモデルにすでに存在するエキスパートパスを直接ターゲットとし、モジュラー設計をブロックワイド再推定に活用する。
我々はKroneckerによる低ランク近似を用いて曲率をモデル化し、予測の不確かさと限界確率のスケーラブルな推定を導出する。
Qwen1.5-MoE と DeepSeek-MoE による常識推論ベンチマークの実験では、ベイジアン-MoE は期待キャリブレーション誤差 (ECE) と負のログライクリーフ (NLL) の両方をベースライン上で改善し、信頼性の高い下流意思決定の有効性を確認している。
関連論文リスト
- Extracting Uncertainty Estimates from Mixtures of Experts for Semantic Segmentation [9.817102014355617]
アーキテクチャ変更を伴わない専門家(MoE)の混合から、よく校正された予測不確実性推定が抽出可能であることを示す。
以上の結果から,MoEsは条件付き正当性測定値において,アンサンブルよりも信頼性の高い不確実性推定値が得られることがわかった。
Cityscapesデータセットの実験では、専門家の数が増加することで不確実性の校正がさらに高められることが示唆された。
論文 参考訳(メタデータ) (2025-09-05T05:30:53Z) - On Equivariant Model Selection through the Lens of Uncertainty [49.137341292207]
等変モデルは、予測性能を改善するために対称性に関する事前の知識を活用するが、不特定なアーキテクチャ上の制約がそれを傷つける可能性がある。
我々は、頻繁な(コンフォーマル予測による)、ベイジアン(限界確率による)、およびキャリブレーションに基づく評価による誤りに基づく評価の比較を行った。
不確実性指標は一般的に予測性能と一致するが,ベイズ模型の証拠は矛盾する。
論文 参考訳(メタデータ) (2025-06-23T13:35:06Z) - Embedded Nonlocal Operator Regression (ENOR): Quantifying model error in learning nonlocal operators [8.585650361148558]
本研究では,非局所的同化代理モデルとその構造モデル誤差を学習するための新しい枠組みを提案する。
このフレームワークは、長期シミュレーションにおける均質化材料応答予測のための離散性適応不確実性定量化を提供する。
論文 参考訳(メタデータ) (2024-10-27T04:17:27Z) - Beyond mirkwood: Enhancing SED Modeling with Conformal Predictions [0.0]
SEDフィッティングにおける柔軟性と不確実性を向上する,高度な機械学習ベースのアプローチを提案する。
我々は、整合化量子レグレッションを組み込んで、点予測をエラーバーに変換し、解釈可能性と信頼性を向上させる。
論文 参考訳(メタデータ) (2023-12-21T11:27:20Z) - Local Bayesian Dirichlet mixing of imperfect models [0.0]
ベイズモデルの平均化および混合技術による核質量の採掘能力について検討した。
予測精度と不確実性定量化の両方において,グローバルモデルと局所モデルの混合が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-11-02T21:02:40Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。