Fugu-MT 論文翻訳(概要): Gradient-free variational learning with conditional mixture networks

論文の概要: Gradient-free variational learning with conditional mixture networks

arxiv url: http://arxiv.org/abs/2408.16429v1
Date: Thu, 29 Aug 2024 10:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 14:12:45.211115
Title: Gradient-free variational learning with conditional mixture networks
Title（参考訳）: 条件付き混合ネットワークを用いた勾配自由変分学習
Authors: Conor Heins, Hao Wu, Dimitrije Markovic, Alexander Tschantz, Jeff Beck, Christopher Buckley,
Abstract要約: 条件付き混合ネットワーク(CMN)は、高速で勾配のない推論に適しており、複雑な分類タスクを解くことができる。 UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。提案手法であるCAVI-CMNは,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。
参考スコア（独自算出の注目度）: 39.827869318925494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Balancing computational efficiency with robust predictive performance is crucial in supervised learning, especially for critical applications. Standard deep learning models, while accurate and scalable, often lack probabilistic features like calibrated predictions and uncertainty quantification. Bayesian methods address these issues but can be computationally expensive as model and data complexity increase. Previous work shows that fast variational methods can reduce the compute requirements of Bayesian methods by eliminating the need for gradient computation or sampling, but are often limited to simple models. We demonstrate that conditional mixture networks (CMNs), a probabilistic variant of the mixture-of-experts (MoE) model, are suitable for fast, gradient-free inference and can solve complex classification tasks. CMNs employ linear experts and a softmax gating network. By exploiting conditional conjugacy and P\'olya-Gamma augmentation, we furnish Gaussian likelihoods for the weights of both the linear experts and the gating network. This enables efficient variational updates using coordinate ascent variational inference (CAVI), avoiding traditional gradient-based optimization. We validate this approach by training two-layer CMNs on standard benchmarks from the UCI repository. Our method, CAVI-CMN, achieves competitive and often superior predictive accuracy compared to maximum likelihood estimation (MLE) with backpropagation, while maintaining competitive runtime and full posterior distributions over all model parameters. Moreover, as input size or the number of experts increases, computation time scales competitively with MLE and other gradient-based solutions like black-box variational inference (BBVI), making CAVI-CMN a promising tool for deep, fast, and gradient-free Bayesian networks.
Abstract（参考訳）: 頑健な予測性能と計算効率のバランスをとることは、教師あり学習、特に重要な応用において重要である。標準的なディープラーニングモデルは正確でスケーラブルだが、校正された予測や不確実性定量化のような確率的特徴を欠くことが多い。ベイジアン法はこれらの問題に対処するが、モデルやデータの複雑さが増大するにつれて計算コストが増大する可能性がある。これまでの研究では、高速変動法は勾配計算やサンプリングを不要にすることでベイズ法の計算要求を減らすことができるが、単純なモデルに制限されることが多かった。条件付き混合ネットワーク (CMN) は, 条件付き混合モデル(MoE) の確率的変種であり, 高速で勾配のない推論に適しており, 複雑な分類処理を解くことができることを示す。 CMNは線形エキスパートとソフトマックスゲーティングネットワークを採用している。条件共役とP'olya-Gamma拡張を利用して、線形専門家とゲーティングネットワークの両方の重み付けについてガウス的可能性を示す。これにより、従来の勾配に基づく最適化を避けるため、座標アセント変分推論(CAVI)を用いた効率的な変分更新が可能となる。 UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。提案手法であるCAVI-CMNは,全てのモデルパラメータに対する競合ランタイムと完全な後続分布を維持しつつ,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。さらに、入力サイズや専門家の数が増加するにつれて、計算時間はMLEや他のブラックボックス変分推論(BBVI)のような勾配ベースのソリューションと競合し、CAVI-CMNは深い、速く、勾配のないベイズネットワークのための有望なツールとなる。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文参考訳（メタデータ） (2025-02-15T12:28:51Z)
Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks [6.805997961535213]
Multiscale Gradient Descent (Multiscale-SGD) は、粗大なトレーニング戦略を利用した新しい最適化手法である。学習可能なスケールに依存しないMesh-Free Convolutions (MFC) の新たなクラスを導入する。本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
論文参考訳（メタデータ） (2025-01-22T09:13:47Z)
Multi-Level GNN Preconditioner for Solving Large Scale Problems [0.0]
グラフニューラルネットワーク(GNN)はメッシュのような非構造化データから学ぶのに最適だが、小さな問題に制限されることが多い。本稿では,GNNモデルを多レベルドメイン分解フレームワークに統合した新しいプレコンディショナーを提案する。提案したGNNベースのプレコンディショナーは、Krylov法の効率を高めるために使用され、任意の精度の要求レベルに収束できるハイブリッド・ソルバとなる。
論文参考訳（メタデータ） (2024-02-13T08:50:14Z)
Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文参考訳（メタデータ） (2023-08-14T22:08:28Z)
On the optimization and pruning for Bayesian deep learning [1.0152838128195467]
重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。 EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。我々の密度モデルは最先端の性能に到達でき、スパースモデルは以前提案したプルーニング方式と比較して非常によく機能する。
論文参考訳（メタデータ） (2022-10-24T05:18:08Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文参考訳（メタデータ） (2021-06-14T15:40:51Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)
Amortized Conditional Normalized Maximum Likelihood: Reliable Out of Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文参考訳（メタデータ） (2020-11-05T08:04:34Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)
Fast Deep Mixtures of Gaussian Process Experts [0.6554326244334868]
教師付き学習コンテキストにおけるフレキシブルなモデリングには,専門家の混在が不可欠である。本稿では、ディープニューラルネットワーク(DNN)を用いて、スパースGPから専門家を選択するためのゲーティングネットワークの設計を提案する。 CCR (Cluster-Classify-Regress) と呼ばれる高速なワンパスアルゴリズムを用いて、最大後部推定器(MAP)を極端に高速に近似する。
論文参考訳（メタデータ） (2020-06-11T18:52:34Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Scaling Bayesian inference of mixed multinomial logit models to very large datasets [9.442139459221785]
本稿では,バックプロパゲーション,自動微分,GPU加速計算を活用するアモルティファイド変分推論手法を提案する。本研究では, 後部近似の柔軟性を高めるために, フローの正規化がいかに有効かを示す。
論文参考訳（メタデータ） (2020-04-11T15:30:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。