論文の概要: Bayesian sparsification for deep neural networks with Bayesian model
reduction
- arxiv url: http://arxiv.org/abs/2309.12095v2
- Date: Fri, 27 Oct 2023 07:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:52:29.377610
- Title: Bayesian sparsification for deep neural networks with Bayesian model
reduction
- Title(参考訳): ベイズモデル還元による深層ニューラルネットワークのベイズスパルシフィケーション
- Authors: Dimitrije Markovi\'c, Karl J. Friston, and Stefan J. Kiebel
- Abstract要約: 我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。
BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。
我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning's immense capabilities are often constrained by the complexity
of its models, leading to an increasing demand for effective sparsification
techniques. Bayesian sparsification for deep learning emerges as a crucial
approach, facilitating the design of models that are both computationally
efficient and competitive in terms of performance across various deep learning
applications. The state-of-the-art -- in Bayesian sparsification of deep neural
networks -- combines structural shrinkage priors on model weights with an
approximate inference scheme based on stochastic variational inference.
However, model inversion of the full generative model is exceptionally
computationally demanding, especially when compared to standard deep learning
of point estimates. In this context, we advocate for the use of Bayesian model
reduction (BMR) as a more efficient alternative for pruning of model weights.
As a generalization of the Savage-Dickey ratio, BMR allows a post-hoc
elimination of redundant model weights based on the posterior estimates under a
straightforward (non-hierarchical) generative model. Our comparative study
highlights the advantages of the BMR method relative to established approaches
based on hierarchical horseshoe priors over model weights. We illustrate the
potential of BMR across various deep learning architectures, from classical
networks like LeNet to modern frameworks such as Vision Transformers and
MLP-Mixers.
- Abstract(参考訳): ディープラーニングの膨大な能力は、しばしばモデルの複雑さによって制約され、効果的なスパーシフィケーション技術に対する需要が増大する。
深層学習のためのベイズスペーシフィケーションは重要なアプローチとして現れ、様々な深層学習アプリケーションのパフォーマンスの観点から計算的に効率的かつ競合的なモデルの設計を容易にする。
ディープニューラルネットワークのベイジアンスパーシフィケーションにおける最先端の手法は、モデル重みに対する構造的縮小事前と、確率的変分推論に基づく近似推論スキームを組み合わせる。
しかしながら、完全生成モデルのモデル反転は、特に点推定の標準的な深層学習と比較して、非常に計算的に要求される。
この文脈では、モデルウェイトを刈り取るためのより効率的な代替手段としてベイズモデル還元(BMR)を用いることを提唱する。
サベージ・ディッキー比の一般化として、bmrは単純(非階層的)生成モデルの下で後推算に基づく冗長モデル重みのポストホック除去を可能にする。
本研究は,モデル重みに対する階層的ホースシュー優先法に基づく確立したアプローチに対するbmr法の利点を強調する。
我々は、LeNetのような古典的なネットワークから、Vision TransformersやMLP-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性を説明する。
関連論文リスト
- RedTest: Towards Measuring Redundancy in Deep Neural Networks Effectively [10.812755570974929]
深層学習モデル構造における冗長度を測定するために,モデル構造冗長スコア(MSRS)を用いる。
MSRSは、多くの最先端モデルにおける冗長性の問題を明らかにし、評価するのに効果的である。
最適なモデル構造を探索するための新しい冗長性認識アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-15T14:36:07Z) - Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Recurrent Reinforcement Learning with Memoroids [11.302674177386383]
我々は、軌道を潜在マルコフ状態にマッピングすることで、リカレントニューラルネットワーク(RNN)やトランスフォーマーなどのメモリモデルを研究する。
特にリニア・リカレント・モデル(Linear Recurrent Models)と呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにスケールしない。
我々は,メモロイドと呼ばれる新しいモノイドベースのフレームワークを用いて,既存のモデルを再構成する。
論文 参考訳(メタデータ) (2024-02-15T11:56:53Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer [15.499267533387039]
提案手法は,高速な画像分類とエンコーダデコーダアーキテクチャの両方に特化しており,推論過程において余分な計算オーバーヘッドを発生させることなく,小型・コンパクトなモデルの性能を向上させる。
提案手法は, 従来の自己蒸留法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-09T11:57:45Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。