論文の概要: Gradient-free variational learning with conditional mixture networks
- arxiv url: http://arxiv.org/abs/2408.16429v1
- Date: Thu, 29 Aug 2024 10:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:12:45.211115
- Title: Gradient-free variational learning with conditional mixture networks
- Title(参考訳): 条件付き混合ネットワークを用いた勾配自由変分学習
- Authors: Conor Heins, Hao Wu, Dimitrije Markovic, Alexander Tschantz, Jeff Beck, Christopher Buckley,
- Abstract要約: 条件付き混合ネットワーク(CMN)は、高速で勾配のない推論に適しており、複雑な分類タスクを解くことができる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
- 参考スコア(独自算出の注目度): 39.827869318925494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Balancing computational efficiency with robust predictive performance is crucial in supervised learning, especially for critical applications. Standard deep learning models, while accurate and scalable, often lack probabilistic features like calibrated predictions and uncertainty quantification. Bayesian methods address these issues but can be computationally expensive as model and data complexity increase. Previous work shows that fast variational methods can reduce the compute requirements of Bayesian methods by eliminating the need for gradient computation or sampling, but are often limited to simple models. We demonstrate that conditional mixture networks (CMNs), a probabilistic variant of the mixture-of-experts (MoE) model, are suitable for fast, gradient-free inference and can solve complex classification tasks. CMNs employ linear experts and a softmax gating network. By exploiting conditional conjugacy and P\'olya-Gamma augmentation, we furnish Gaussian likelihoods for the weights of both the linear experts and the gating network. This enables efficient variational updates using coordinate ascent variational inference (CAVI), avoiding traditional gradient-based optimization. We validate this approach by training two-layer CMNs on standard benchmarks from the UCI repository. Our method, CAVI-CMN, achieves competitive and often superior predictive accuracy compared to maximum likelihood estimation (MLE) with backpropagation, while maintaining competitive runtime and full posterior distributions over all model parameters. Moreover, as input size or the number of experts increases, computation time scales competitively with MLE and other gradient-based solutions like black-box variational inference (BBVI), making CAVI-CMN a promising tool for deep, fast, and gradient-free Bayesian networks.
- Abstract(参考訳): 頑健な予測性能と計算効率のバランスをとることは、教師あり学習、特に重要な応用において重要である。
標準的なディープラーニングモデルは正確でスケーラブルだが、校正された予測や不確実性定量化のような確率的特徴を欠くことが多い。
ベイジアン法はこれらの問題に対処するが、モデルやデータの複雑さが増大するにつれて計算コストが増大する可能性がある。
これまでの研究では、高速変動法は勾配計算やサンプリングを不要にすることでベイズ法の計算要求を減らすことができるが、単純なモデルに制限されることが多かった。
条件付き混合ネットワーク (CMN) は, 条件付き混合モデル(MoE) の確率的変種であり, 高速で勾配のない推論に適しており, 複雑な分類処理を解くことができることを示す。
CMNは線形エキスパートとソフトマックスゲーティングネットワークを採用している。
条件共役とP'olya-Gamma拡張を利用して、線形専門家とゲーティングネットワークの両方の重み付けについてガウス的可能性を示す。
これにより、従来の勾配に基づく最適化を避けるため、座標アセント変分推論(CAVI)を用いた効率的な変分更新が可能となる。
UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。
提案手法であるCAVI-CMNは,全てのモデルパラメータに対する競合ランタイムと完全な後続分布を維持しつつ,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
さらに、入力サイズや専門家の数が増加するにつれて、計算時間はMLEや他のブラックボックス変分推論(BBVI)のような勾配ベースのソリューションと競合し、CAVI-CMNは深い、速く、勾配のないベイズネットワークのための有望なツールとなる。
関連論文リスト
- Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。
厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。
視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文 参考訳(メタデータ) (2025-02-15T12:28:51Z) - Multi-Level GNN Preconditioner for Solving Large Scale Problems [0.0]
グラフニューラルネットワーク(GNN)はメッシュのような非構造化データから学ぶのに最適だが、小さな問題に制限されることが多い。
本稿では,GNNモデルを多レベルドメイン分解フレームワークに統合した新しいプレコンディショナーを提案する。
提案したGNNベースのプレコンディショナーは、Krylov法の効率を高めるために使用され、任意の精度の要求レベルに収束できるハイブリッド・ソルバとなる。
論文 参考訳(メタデータ) (2024-02-13T08:50:14Z) - Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation
for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。
画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文 参考訳(メタデータ) (2023-08-14T22:08:28Z) - On the optimization and pruning for Bayesian deep learning [1.0152838128195467]
重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。
EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。
我々の密度モデルは最先端の性能に到達でき、スパースモデルは以前提案したプルーニング方式と比較して非常によく機能する。
論文 参考訳(メタデータ) (2022-10-24T05:18:08Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Scaling Bayesian inference of mixed multinomial logit models to very
large datasets [9.442139459221785]
本稿では,バックプロパゲーション,自動微分,GPU加速計算を活用するアモルティファイド変分推論手法を提案する。
本研究では, 後部近似の柔軟性を高めるために, フローの正規化がいかに有効かを示す。
論文 参考訳(メタデータ) (2020-04-11T15:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。