論文の概要: Variational Learning is Effective for Large Deep Networks
- arxiv url: http://arxiv.org/abs/2402.17641v1
- Date: Tue, 27 Feb 2024 16:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:34:47.634358
- Title: Variational Learning is Effective for Large Deep Networks
- Title(参考訳): 変動学習は大規模深層ネットワークに有効である
- Authors: Yuesong Shen, Nico Daheim, Bai Cong, Peter Nickl, Gian Maria Marconi,
Clement Bazan, Rio Yokota, Iryna Gurevych, Daniel Cremers, Mohammad Emtiyaz
Khan, Thomas M\"ollenhoff
- Abstract要約: 改良された変分オンラインニュートンは、大規模ネットワークのトレーニングにおいて、Adamと一貫して一致し、より優れていることを示す。
IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。
我々は,変分学習の有効性を裏付ける圧倒的な証拠を見出した。
- 参考スコア(独自算出の注目度): 75.20767123439558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We give extensive empirical evidence against the common belief that
variational learning is ineffective for large neural networks. We show that an
optimizer called Improved Variational Online Newton (IVON) consistently matches
or outperforms Adam for training large networks such as GPT-2 and ResNets from
scratch. IVON's computational costs are nearly identical to Adam but its
predictive uncertainty is better. We show several new use cases of IVON where
we improve fine-tuning and model merging in Large Language Models, accurately
predict generalization error, and faithfully estimate sensitivity to data. We
find overwhelming evidence in support of effectiveness of variational learning.
- Abstract(参考訳): 我々は、変分学習が大規模ニューラルネットワークには効果がないという共通の信念に対する広範な実証的証拠を与える。
Improved Variational Online Newton (IVON) と呼ばれるオプティマイザは,GPT-2やResNetsなどの大規模ネットワークをスクラッチからトレーニングするために,Adamに一貫した整合性や性能を示す。
IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。
大規模言語モデルにおける微調整とモデルマージを改善し、一般化誤差を正確に予測し、データに対する感度を忠実に推定するivonの新たなユースケースをいくつか紹介する。
我々は変分学習の有効性を支持する圧倒的な証拠を見つける。
関連論文リスト
- AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Sparsifying Bayesian neural networks with latent binary variables and
normalizing flows [10.865434331546126]
潜伏二元系ベイズニューラルネットワーク(LBBNN)の2つの拡張について検討する。
まず、隠れたユニットを直接サンプリングするためにLRT(Local Reparametrization trick)を用いることで、より計算効率の良いアルゴリズムが得られる。
さらに, LBBNNパラメータの変動後分布の正規化フローを用いて, 平均体ガウス分布よりも柔軟な変動後分布を学習する。
論文 参考訳(メタデータ) (2023-05-05T09:40:28Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - Guiding the retraining of convolutional neural networks against
adversarial inputs [9.67555836316884]
畳み込みニューラルネットワークの再トレーニングのための4つのガイダンス指標と3つの再トレーニング構成について検討した。
我々の目標は、精度、資源利用、時間に関する敵の入力に対するモデルを改善することである。
論文 参考訳(メタデータ) (2022-07-08T05:00:28Z) - How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文 参考訳(メタデータ) (2021-06-21T17:59:51Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。