論文の概要: Bayesian Low-Rank LeArning (Bella): A Practical Approach to Bayesian Neural Networks
- arxiv url: http://arxiv.org/abs/2407.20891v2
- Date: Sun, 25 Aug 2024 17:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 20:50:26.522111
- Title: Bayesian Low-Rank LeArning (Bella): A Practical Approach to Bayesian Neural Networks
- Title(参考訳): Bayesian Low-Rank LeArning (Bella): Bayesian Neural Networksへの実践的アプローチ
- Authors: Bao Gia Doan, Afshar Shamsi, Xiao-Yu Guo, Arash Mohammadi, Hamid Alinejad-Rokny, Dino Sejdinovic, Damith C. Ranasinghe, Ehsan Abbasnejad,
- Abstract要約: ベイズニューラルネットワーク(BNN)の計算負担を軽減するための革新的な枠組みを導入する。
提案手法は,ディープアンサンブルに基づくベイズ的手法の原理に従っているが,事前学習されたニューラルネットワークから生じるパラメータの低ランク摂動により,コストを大幅に削減する。
バニラ版のアンサンブルと、Stein Variational Gradient Descent (SVGD)を用いたベイズ学習のようなより洗練されたスキームは、提案フレームワーク内でシームレスに実装できる。
- 参考スコア(独自算出の注目度): 29.50865891400804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational complexity of Bayesian learning is impeding its adoption in practical, large-scale tasks. Despite demonstrations of significant merits such as improved robustness and resilience to unseen or out-of-distribution inputs over their non- Bayesian counterparts, their practical use has faded to near insignificance. In this study, we introduce an innovative framework to mitigate the computational burden of Bayesian neural networks (BNNs). Our approach follows the principle of Bayesian techniques based on deep ensembles, but significantly reduces their cost via multiple low-rank perturbations of parameters arising from a pre-trained neural network. Both vanilla version of ensembles as well as more sophisticated schemes such as Bayesian learning with Stein Variational Gradient Descent (SVGD), previously deemed impractical for large models, can be seamlessly implemented within the proposed framework, called Bayesian Low-Rank LeArning (Bella). In a nutshell, i) Bella achieves a dramatic reduction in the number of trainable parameters required to approximate a Bayesian posterior; and ii) it not only maintains, but in some instances, surpasses the performance of conventional Bayesian learning methods and non-Bayesian baselines. Our results with large-scale tasks such as ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVA demonstrate the effectiveness and versatility of Bella in building highly scalable and practical Bayesian deep models for real-world applications.
- Abstract(参考訳): ベイズ学習の計算複雑性は、その実践的で大規模なタスクへの採用を妨げる。
強靭さや弾力性の改善といった重要なメリットのデモンストレーションや、非バイエルン人に対して見つからない、あるいは配布外入力のデモにもかかわらず、その実用性はほとんど重要ではなくなった。
本研究では,ベイズニューラルネットワーク(BNN)の計算負担を軽減するための革新的な枠組みを提案する。
提案手法は,ディープアンサンブルに基づくベイズ的手法の原理に従っているが,事前学習されたニューラルネットワークから生じるパラメータの低ランク摂動により,コストを大幅に削減する。
バニラ版のアンサンブルと、大型モデルでは非現実的と考えられていたBayesian Learning with Stein Variational Gradient Descent (SVGD)のようなより洗練されたスキームは、Bayesian Low-Rank LeArning (Bella)と呼ばれる提案されたフレームワーク内でシームレスに実装できる。
ひと言で言えば、。
一 ベラは、ベイズ後部を近似するために必要な訓練可能なパラメータの数を劇的に減らし、及び
二 従来のベイズ学習法及び非ベイズ学習法の性能を上回り、維持するだけでなく、場合によっては非ベイズ学習法を上回ります。
我々は,ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVAなどの大規模タスクを用いて, スケーラブルで実用的なベイズ的深層モデルの構築において, Bellaの有効性と汎用性を実証した。
関連論文リスト
- Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - Bayesian sparsification for deep neural networks with Bayesian model
reduction [0.6144680854063939]
我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。
BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。
我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
論文 参考訳(メタデータ) (2023-09-21T14:10:47Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - BayesCap: Bayesian Identity Cap for Calibrated Uncertainty in Frozen
Neural Networks [50.15201777970128]
本研究では,凍結モデルに対するベイズIDマッピングを学習し,不確実性の推定を可能にするBayesCapを提案する。
BayesCapは、元のデータセットのごく一部でトレーニングできる、メモリ効率のよいメソッドである。
本稿では,多種多様なアーキテクチャを用いた多種多様なタスクに対する本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-07-14T12:50:09Z) - Learning Representation for Bayesian Optimization with Collision-free
Regularization [13.476552258272402]
大規模、高次元、非定常的なデータセットは現実世界のシナリオでは一般的である。
最近の研究は、古典的なガウス過程に先立ってニューラルネットワークを適用して潜在表現を学習することで、そのような入力を処理しようとしている。
適切なネットワーク設計であっても、そのような学習された表現は、しばしば潜在空間における衝突を引き起こすことを示す。
本稿では,学習された潜伏空間における衝突を低減するために,新しい正則化器を用いた効率的な深度ベイズ最適化フレームワークであるLOCoを提案する。
論文 参考訳(メタデータ) (2022-03-16T14:44:16Z) - FFNB: Forgetting-Free Neural Blocks for Deep Continual Visual Learning [14.924672048447338]
我々は、新しい忘れのないニューラルブロック(FFNB)に基づく連続学習のための動的ネットワークアーキテクチャを考案する。
FFNB機能を新しいタスクでトレーニングするには、以前のタスクのnull-スペースのパラメータを制約する新しいプロシージャを使用する。
論文 参考訳(メタデータ) (2021-11-22T17:23:34Z) - Laplace Redux -- Effortless Bayesian Deep Learning [79.70292248127467]
ラプラス近似は変分ベイズやディープアンサンブルのような代替法ほど人気がないことを示す。
PyTorch用の使いやすいソフトウェアライブラリである"Laplace"を紹介します。
実験を通して、LAは計算コストの点で優れているが、性能の面ではより一般的な代替品と競合することを示した。
論文 参考訳(メタデータ) (2021-06-28T15:30:40Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - On Resource-Efficient Bayesian Network Classifiers and Deep Neural
Networks [14.540226579203207]
ベイズネットワーク(BN)分類器の複雑さを低減するための2つの方法を提案する。
まず、ストレートスルー勾配推定器を用いてBNのパラメータを数ビットに量子化する量子化学習を導入する。
第2に、モデルサイズも考慮し、最近提案された微分可能な木強化ナイーブベイズ (TAN) 構造学習手法を拡張した。
論文 参考訳(メタデータ) (2020-10-22T14:47:55Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。