論文の概要: Bayesian sparsification for deep neural networks with Bayesian model
reduction
- arxiv url: http://arxiv.org/abs/2309.12095v1
- Date: Thu, 21 Sep 2023 14:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:11:49.211340
- Title: Bayesian sparsification for deep neural networks with Bayesian model
reduction
- Title(参考訳): ベイズモデル還元による深層ニューラルネットワークのベイズスパルシフィケーション
- Authors: Dimitrije Markovi\'c, Karl J. Friston, and Stefan J. Kiebel
- Abstract要約: ディープニューラルネットワークのベイズスカラー化における最先端の -- は、モデルウェイト上の構造的縮小前のインバージョンと、ブラックボックスの変動推論に基づく近似推論スキームを組み合わせる。
我々は,モデル重みの刈り取りにおいて,より効率的な代替手段としてベイズモデル還元(BMR)の使用を提唱する。
本稿では、LeNetのような古典的ネットワークから、Vision TransformersやInversion-Mixersのようなモダンなフレームワークに至るまで、さまざまなディープラーニングアーキテクチャのモデルパラメーターを創出するBMRの可能性について説明する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning's immense capabilities are often constrained by the complexity
of its models, leading to an increasing demand for effective sparsification
techniques. Bayesian sparsification for deep learning emerges as a crucial
approach, facilitating the design of models that are both computationally
efficient and competitive in terms of performance across various deep learning
applications. The state-of-the-art -- in Bayesian sparsification of deep neural
networks -- combines structural shrinkage priors on model weights with an
approximate inference scheme based on black-box stochastic variational
inference. However, model inversion of the full generative model is
exceptionally computationally demanding, especially when compared to standard
deep learning of point estimates. In this context, we advocate for the use of
Bayesian model reduction (BMR) as a more efficient alternative for pruning of
model weights. As a generalization of the Savage-Dickey ratio, BMR allows a
post-hoc elimination of redundant model weights based on the posterior
estimates under a straightforward (non-hierarchical) generative model. Our
comparative study highlights the computational efficiency and the pruning rate
of the BMR method relative to the established stochastic variational inference
(SVI) scheme, when applied to the full hierarchical generative model. We
illustrate the potential of BMR to prune model parameters across various deep
learning architectures, from classical networks like LeNet to modern frameworks
such as Vision Transformers and MLP-Mixers.
- Abstract(参考訳): ディープラーニングの膨大な能力は、しばしばモデルの複雑さによって制約され、効果的なスパーシフィケーション技術に対する需要が増大する。
深層学習のためのベイズスペーシフィケーションは重要なアプローチとして現れ、様々な深層学習アプリケーションのパフォーマンスの観点から計算的に効率的かつ競合的なモデルの設計を容易にする。
ディープニューラルネットワークのベイジアンスパーシフィケーションにおける最先端の手法は、モデル重みによる構造的縮小をブラックボックス確率的変分推論に基づく近似推論スキームと組み合わせている。
しかしながら、完全生成モデルのモデル反転は、特に点推定の標準的な深層学習と比較して、非常に計算的に要求される。
この文脈では、モデルウェイトを刈り取るためのより効率的な代替手段としてベイズモデル還元(BMR)を用いることを提唱する。
サベージ・ディッキー比の一般化として、bmrは単純(非階層的)生成モデルの下で後推算に基づく冗長モデル重みのポストホック除去を可能にする。
本研究は,BMR法における確率的変分推論(SVI)方式に対する計算効率とプルーニング率を,階層的生成モデルに適用した場合に明らかにした。
本稿では、LeNetのような古典的ネットワークから、Vision TransformersやMLP-Mixersといったモダンなフレームワークに至るまで、さまざまなディープラーニングアーキテクチャのモデルパラメーターを創出するBMRの可能性について説明する。
関連論文リスト
- RedTest: Towards Measuring Redundancy in Deep Neural Networks Effectively [10.812755570974929]
深層学習モデル構造における冗長度を測定するために,モデル構造冗長スコア(MSRS)を用いる。
MSRSは、多くの最先端モデルにおける冗長性の問題を明らかにし、評価するのに効果的である。
最適なモデル構造を探索するための新しい冗長性認識アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-15T14:36:07Z) - Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Recurrent Reinforcement Learning with Memoroids [11.302674177386383]
我々は、軌道を潜在マルコフ状態にマッピングすることで、リカレントニューラルネットワーク(RNN)やトランスフォーマーなどのメモリモデルを研究する。
特にリニア・リカレント・モデル(Linear Recurrent Models)と呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにスケールしない。
我々は,メモロイドと呼ばれる新しいモノイドベースのフレームワークを用いて,既存のモデルを再構成する。
論文 参考訳(メタデータ) (2024-02-15T11:56:53Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer [15.499267533387039]
提案手法は,高速な画像分類とエンコーダデコーダアーキテクチャの両方に特化しており,推論過程において余分な計算オーバーヘッドを発生させることなく,小型・コンパクトなモデルの性能を向上させる。
提案手法は, 従来の自己蒸留法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-09T11:57:45Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。