論文の概要: Non-vacuous Generalization Bounds for Deep Neural Networks without any modification to the trained models
- arxiv url: http://arxiv.org/abs/2503.07325v1
- Date: Mon, 10 Mar 2025 13:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:06.487152
- Title: Non-vacuous Generalization Bounds for Deep Neural Networks without any modification to the trained models
- Title(参考訳): 訓練されたモデルの変更を伴わないディープニューラルネットワークの非空一般化境界
- Authors: Khoat Than, Dat Phan,
- Abstract要約: 数百万から数十億のパラメータを持つディープニューラルネットワーク(NN)は、有限のトレーニングセットからトレーニングを受けた後、目に見えないデータに対して非常によく機能する。
このようなNNの優れた能力を説明するために、様々な先行理論が開発されているが、テストエラーに意味のある拘束力を与えていない。
PAC-Bayesと相互情報に基づく近年のいくつかの理論は、非空白であり、NNの優れた性能を説明する大きな可能性を示している。
- 参考スコア(独自算出の注目度): 1.4195677954898822
- License:
- Abstract: Deep neural network (NN) with millions or billions of parameters can perform really well on unseen data, after being trained from a finite training set. Various prior theories have been developed to explain such excellent ability of NNs, but do not provide a meaningful bound on the test error. Some recent theories, based on PAC-Bayes and mutual information, are non-vacuous and hence show a great potential to explain the excellent performance of NNs. However, they often require a stringent assumption and extensive modification (e.g. compression, quantization) to the trained model of interest. Therefore, those prior theories provide a guarantee for the modified versions only. In this paper, we propose two novel bounds on the test error of a model. Our bounds uses the training set only and require no modification to the model. Those bounds are verified on a large class of modern NNs, pretrained by Pytorch on the ImageNet dataset, and are non-vacuous. To the best of our knowledge, these are the first non-vacuous bounds at this large scale, without any modification to the pretrained models.
- Abstract(参考訳): 数百万から数十億のパラメータを持つディープニューラルネットワーク(NN)は、有限のトレーニングセットからトレーニングを受けた後、目に見えないデータに対して非常によく機能する。
このようなNNの優れた能力を説明するために、様々な先行理論が開発されているが、テストエラーに意味のある拘束力を与えていない。
PAC-Bayesと相互情報に基づく近年のいくつかの理論は、非空白であり、NNの優れた性能を説明する大きな可能性を示している。
しかし、それらはしばしば、訓練された関心のモデルに対する厳密な仮定と広範囲な修正(例えば、圧縮、量子化)を必要とする。
したがって、これらの先行説は修正版のみを保証している。
本稿では,モデルの試験誤差に関する2つの新しい境界を提案する。
私たちのバウンダリはトレーニングセットのみを使用し、モデルの変更は必要ありません。
これらの境界は、ImageNetデータセット上でPytorchによって事前訓練された、最新のNNの大規模なクラスで検証される。
私たちの知る限りでは、これらは事前訓練されたモデルを変更することなく、この大規模で最初の空でない境界である。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Bayesian Neural Networks with Domain Knowledge Priors [52.80929437592308]
ドメイン知識の一般的な形式をBNNに組み込むためのフレームワークを提案する。
提案したドメイン知識を用いたBNNは,標準知識のBNNよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T22:34:53Z) - No Free Prune: Information-Theoretic Barriers to Pruning at Initialization [8.125999058340998]
arXiv:2105.12806のロバスト性法則を,通常のパラメータカウントを$p_texteff$に置き換えたスパースネットワークに拡張する。
ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。
論文 参考訳(メタデータ) (2024-02-02T01:13:16Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for
XOR Data [24.86314525762012]
勾配降下法により訓練されたReLU CNNがベイズ最適精度付近で実現できることを示す。
以上の結果から,CNNは高い相関性のある特徴が存在する場合でも,効率よくXOR問題を学習する能力を有することが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T11:31:37Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Regularizing Explanations in Bayesian Convolutional Neural Networks [0.4538232180176148]
ベイズ推論に適合する新しい説明正規化法を提案する。
提案手法は,モデルが刺激的特徴に過度に適合する場合や,どの特徴に着目すべきか不確実な場合,予測性能を向上させる。
論文 参考訳(メタデータ) (2021-04-29T13:59:21Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z) - Modeling Token-level Uncertainty to Learn Unknown Concepts in SLU via
Calibrated Dirichlet Prior RNN [98.4713940310056]
現代パーソナルアシスタントにおける音声言語理解(SLU)の主な課題は、発話から意味概念を抽出することである。
最近の研究では、疑問と回答を収集し、未知のデータを学習し、質問すべきである。
疑わしい監督なしにシーケンスの不確かさをモデル化するために、ソフトマックスベースのスロット充填ニューラルネットワークアーキテクチャを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T02:12:30Z) - Exploring the Uncertainty Properties of Neural Networks' Implicit Priors
in the Infinite-Width Limit [47.324627920761685]
我々は、無限大のNNのアンサンブルに先立って関数空間をガウス過程として特徴づける最近の理論的進歩を用いる。
これにより、関数空間上の暗黙の前のNNについて、よりよく理解できます。
また,従来のNNGPを用いた分類手法の校正について検討した。
論文 参考訳(メタデータ) (2020-10-14T18:41:54Z) - One Versus all for deep Neural Network Incertitude (OVNNI)
quantification [12.734278426543332]
本稿では,データの疫学的不確実性を容易に定量化するための新しい手法を提案する。
本手法は,1つのクラス対他のクラス(OVA)を分類するために訓練されたDNNのアンサンブルの予測と,オール対オール(AVA)分類を実行するために訓練された標準DNNの予測とを混合して構成する。
論文 参考訳(メタデータ) (2020-06-01T14:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。