論文の概要: Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded
learning
- arxiv url: http://arxiv.org/abs/2110.11804v1
- Date: Fri, 22 Oct 2021 14:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 18:47:49.458647
- Title: Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded
learning
- Title(参考訳): プルーニングマスクの確率的微調整とpac-bayes自己拘束学習
- Authors: Soufiane Hayou, Bobby He, Gintare Karolina Dziugaite
- Abstract要約: 本研究では, プルーニングマスクの損失を最適化することにより, プルーニングマスクの学習方法を検討する。
線形回帰の設定における誘導適応予測器のトレーニングダイナミクスを解析する。
PAC-Bayes一般化誤差境界は, 先行データと後続データとの間の特徴アライメントの変化の大きさによって制御されることを示す。
- 参考スコア(独自算出の注目度): 16.526326919313924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an approach to learning pruning masks by optimizing the expected
loss of stochastic pruning masks, i.e., masks which zero out each weight
independently with some weight-specific probability. We analyze the training
dynamics of the induced stochastic predictor in the setting of linear
regression, and observe a data-adaptive L1 regularization term, in contrast to
the dataadaptive L2 regularization term known to underlie dropout in linear
regression. We also observe a preference to prune weights that are less
well-aligned with the data labels. We evaluate probabilistic fine-tuning for
optimizing stochastic pruning masks for neural networks, starting from masks
produced by several baselines. In each case, we see improvements in test error
over baselines, even after we threshold fine-tuned stochastic pruning masks.
Finally, since a stochastic pruning mask induces a stochastic neural network,
we consider training the weights and/or pruning probabilities simultaneously to
minimize a PAC-Bayes bound on generalization error. Using data-dependent
priors, we obtain a selfbounded learning algorithm with strong performance and
numerically tight bounds. In the linear model, we show that a PAC-Bayes
generalization error bound is controlled by the magnitude of the change in
feature alignment between the 'prior' and 'posterior' data.
- Abstract(参考訳): 本研究では, 確率的プルーニングマスクの損失を最適化し, 重量比の確率と独立して各重量をゼロにすることによるプルーニングマスクの学習手法について検討した。
線形回帰の設定における確率予測器のトレーニングダイナミクスを解析し、線形回帰におけるドロップアウトを減らすことで知られているデータ適応型L2正規化項とは対照的に、データ適応型L1正規化項を観察する。
また、データラベルとあまり一致しないpruneの重みに対する好みも観察しています。
ニューラルネットワークのための確率的プルーニングマスクを最適化するための確率的ファインチューニングの評価を行った。
いずれの場合も、微調整された確率的プルーニングマスクのしきい値においても、ベースラインよりもテスト誤差が改善する。
最後に,確率的プルーニングマスクは確率的ニューラルネットワークを誘導するので,一般化誤差にバウンドしたpac-bayesを最小化するために,重みと/またはプルーニング確率を同時に訓練することを検討する。
データ依存優先法を用いて,強い性能と数値的に密接な境界を持つ自己境界学習アルゴリズムを得る。
線形モデルにおいて,pac-bayes一般化誤差のバウンドは,'prior'データと'posterior'データ間の特徴アライメントの変化の大きさによって制御されることを示す。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach [18.009376840944284]
本稿では,ヘッセン損失行列を効果的に正規化できるアルゴリズムを提案する。
提案手法は,CLIPとチェーン・オブ・ファインチューニングデータセットの事前学習における一般化の改善に有効である。
論文 参考訳(メタデータ) (2023-06-14T14:58:36Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improved uncertainty quantification for neural networks with Bayesian
last layer [0.0]
不確実性定量化は機械学習において重要な課題である。
本稿では,BLL を用いた NN の対数乗算可能性の再構成を行い,バックプロパゲーションを用いた効率的なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-02-21T20:23:56Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - GFlowOut: Dropout with Generative Flow Networks [76.59535235717631]
モンテカルロ・ドロップアウトは近似推論の比較的安価な方法として広く利用されている。
最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。
GFlowOutleveragesは、最近提案されたジェネレーティブフローネットワーク(GFlowNets)の確率的フレームワークを使用して、ドロップアウトマスク上の後部分布を学習する。
論文 参考訳(メタデータ) (2022-10-24T03:00:01Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Variational Laplace for Bayesian neural networks [25.055754094939527]
Variational Laplaceは、ニューラルネットワークの重みをサンプリングすることなく、ELBOを推定する可能性の局所近似を利用する。
分散パラメータの学習率を増加させることで早期停止を回避できることを示す。
論文 参考訳(メタデータ) (2021-02-27T14:06:29Z) - Variational Laplace for Bayesian neural networks [33.46810568687292]
我々はベイズニューラルネットワーク(BNN)のための変分ラプラスを開発する。
我々は,ニューラルネットワークの重みをサンプリングすることなく,ELBOの曲率を局所的に近似し,ELBOを推定する。
分散パラメータの学習率を増大させることにより,早期停止を回避できることを示す。
論文 参考訳(メタデータ) (2020-11-20T15:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。