論文の概要: Gradient-free variational learning with conditional mixture networks
- arxiv url: http://arxiv.org/abs/2408.16429v1
- Date: Thu, 29 Aug 2024 10:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:12:45.211115
- Title: Gradient-free variational learning with conditional mixture networks
- Title(参考訳): 条件付き混合ネットワークを用いた勾配自由変分学習
- Authors: Conor Heins, Hao Wu, Dimitrije Markovic, Alexander Tschantz, Jeff Beck, Christopher Buckley,
- Abstract要約: 条件付き混合ネットワーク(CMN)は、高速で勾配のない推論に適しており、複雑な分類タスクを解くことができる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
- 参考スコア(独自算出の注目度): 39.827869318925494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Balancing computational efficiency with robust predictive performance is crucial in supervised learning, especially for critical applications. Standard deep learning models, while accurate and scalable, often lack probabilistic features like calibrated predictions and uncertainty quantification. Bayesian methods address these issues but can be computationally expensive as model and data complexity increase. Previous work shows that fast variational methods can reduce the compute requirements of Bayesian methods by eliminating the need for gradient computation or sampling, but are often limited to simple models. We demonstrate that conditional mixture networks (CMNs), a probabilistic variant of the mixture-of-experts (MoE) model, are suitable for fast, gradient-free inference and can solve complex classification tasks. CMNs employ linear experts and a softmax gating network. By exploiting conditional conjugacy and P\'olya-Gamma augmentation, we furnish Gaussian likelihoods for the weights of both the linear experts and the gating network. This enables efficient variational updates using coordinate ascent variational inference (CAVI), avoiding traditional gradient-based optimization. We validate this approach by training two-layer CMNs on standard benchmarks from the UCI repository. Our method, CAVI-CMN, achieves competitive and often superior predictive accuracy compared to maximum likelihood estimation (MLE) with backpropagation, while maintaining competitive runtime and full posterior distributions over all model parameters. Moreover, as input size or the number of experts increases, computation time scales competitively with MLE and other gradient-based solutions like black-box variational inference (BBVI), making CAVI-CMN a promising tool for deep, fast, and gradient-free Bayesian networks.
- Abstract(参考訳): 頑健な予測性能と計算効率のバランスをとることは、教師あり学習、特に重要な応用において重要である。
標準的なディープラーニングモデルは正確でスケーラブルだが、校正された予測や不確実性定量化のような確率的特徴を欠くことが多い。
ベイジアン法はこれらの問題に対処するが、モデルやデータの複雑さが増大するにつれて計算コストが増大する可能性がある。
これまでの研究では、高速変動法は勾配計算やサンプリングを不要にすることでベイズ法の計算要求を減らすことができるが、単純なモデルに制限されることが多かった。
条件付き混合ネットワーク (CMN) は, 条件付き混合モデル(MoE) の確率的変種であり, 高速で勾配のない推論に適しており, 複雑な分類処理を解くことができることを示す。
CMNは線形エキスパートとソフトマックスゲーティングネットワークを採用している。
条件共役とP'olya-Gamma拡張を利用して、線形専門家とゲーティングネットワークの両方の重み付けについてガウス的可能性を示す。
これにより、従来の勾配に基づく最適化を避けるため、座標アセント変分推論(CAVI)を用いた効率的な変分更新が可能となる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,全てのモデルパラメータに対する競合ランタイムと完全な後続分布を維持しつつ,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
さらに、入力サイズや専門家の数が増加するにつれて、計算時間はMLEや他のブラックボックス変分推論(BBVI)のような勾配ベースのソリューションと競合し、CAVI-CMNは深い、速く、勾配のないベイズネットワークのための有望なツールとなる。
関連論文リスト
- Multi-Level GNN Preconditioner for Solving Large Scale Problems [0.0]
グラフニューラルネットワーク(GNN)はメッシュのような非構造化データから学ぶのに最適だが、小さな問題に制限されることが多い。
本稿では,GNNモデルを多レベルドメイン分解フレームワークに統合した新しいプレコンディショナーを提案する。
提案したGNNベースのプレコンディショナーは、Krylov法の効率を高めるために使用され、任意の精度の要求レベルに収束できるハイブリッド・ソルバとなる。
論文 参考訳(メタデータ) (2024-02-13T08:50:14Z) - Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation
for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。
画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文 参考訳(メタデータ) (2023-08-14T22:08:28Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Fast Deep Mixtures of Gaussian Process Experts [0.6554326244334868]
教師付き学習コンテキストにおけるフレキシブルなモデリングには,専門家の混在が不可欠である。
本稿では、ディープニューラルネットワーク(DNN)を用いて、スパースGPから専門家を選択するためのゲーティングネットワークの設計を提案する。
CCR (Cluster-Classify-Regress) と呼ばれる高速なワンパスアルゴリズムを用いて、最大後部推定器(MAP)を極端に高速に近似する。
論文 参考訳(メタデータ) (2020-06-11T18:52:34Z) - Scaling Bayesian inference of mixed multinomial logit models to very
large datasets [9.442139459221785]
本稿では,バックプロパゲーション,自動微分,GPU加速計算を活用するアモルティファイド変分推論手法を提案する。
本研究では, 後部近似の柔軟性を高めるために, フローの正規化がいかに有効かを示す。
論文 参考訳(メタデータ) (2020-04-11T15:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。