論文の概要: Estimating the Probability of Sampling a Trained Neural Network at Random
- arxiv url: http://arxiv.org/abs/2501.18812v2
- Date: Tue, 08 Apr 2025 00:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:06.283199
- Title: Estimating the Probability of Sampling a Trained Neural Network at Random
- Title(参考訳): ランダムにトレーニングニューラルネットワークをサンプリングする確率の推定
- Authors: Adam Scherlis, Nora Belrose,
- Abstract要約: ニューラルネットワークにおける局所化近傍の大きさを推定するアルゴリズムを解析する。
我々は,この下限を重要サンプリング法により改善可能であることを示す。
過度に適合し、過度に一般化された地区はより小さく、より複雑な学習行動を示す。
- 参考スコア(独自算出の注目度): 1.9358739203360091
- License:
- Abstract: We present and analyze an algorithm for estimating the size, under a Gaussian or uniform measure, of a localized neighborhood in neural network parameter space with behavior similar to an ``anchor'' point. We refer to this as the "local volume" of the anchor. We adapt an existing basin-volume estimator, which is very fast but in many cases only provides a lower bound. We show that this lower bound can be improved with an importance-sampling method using gradient information that is already provided by popular optimizers. The negative logarithm of local volume can also be interpreted as a measure of the anchor network's information content. As expected for a measure of complexity, this quantity increases during language model training. We find that overfit, badly-generalizing neighborhoods are smaller, indicating a more complex learned behavior. This smaller volume can also be interpreted in an MDL sense as suboptimal compression. Our results are consistent with a picture of generalization we call the "volume hypothesis": that neural net training produces good generalization primarily because the architecture gives simple functions more volume in parameter space, and the optimizer samples from the low-loss manifold in a volume-sensitive way. We believe that fast local-volume estimators are a promising practical metric of network complexity and architectural inductive bias for interpretability purposes.
- Abstract(参考訳): ニューラルネットワークパラメータ空間における局所的近傍の大きさを'anchor'点に類似した振る舞いで推定するアルゴリズムを,ガウス的あるいは均一な尺度で提示し,解析する。
これをアンカーの「ローカルボリューム」と呼ぶ。
既存の流域体積推定器を適応し、非常に高速であるが、多くの場合は下界しか提供しない。
この下限は、すでに一般的なオプティマイザによって提供されている勾配情報を用いて重要サンプリング法により改善可能であることを示す。
ローカルボリュームの負の対数も、アンカーネットワークの情報内容の尺度として解釈できる。
複雑性の指標として期待されるように、この量は言語モデルトレーニング中に増加する。
過度に適合し、過度に一般化された地区はより小さく、より複雑な学習行動を示す。
この小さい体積は、MDLの意味では準最適圧縮と解釈することもできる。
ニューラルネットのトレーニングが良い一般化をもたらすのは、アーキテクチャがパラメータ空間において単純な関数を多く与えることと、低損失多様体からのオプティマイザ標本を容積に敏感な方法で与えることからである。
高速局所体積推定器は,解釈可能性のためのネットワーク複雑性とアーキテクチャ的帰納バイアスの有望な実測指標である,と我々は信じている。
関連論文リスト
- Quantification via Gaussian Latent Space Representations [3.2198127675295036]
定量化は、未知の例の袋の中で各クラスの有病率を予測するタスクである。
本稿では,実例の袋の不変表現を得るために,潜在空間におけるガウス分布を用いたエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T13:13:46Z) - Improved uncertainty quantification for neural networks with Bayesian
last layer [0.0]
不確実性定量化は機械学習において重要な課題である。
本稿では,BLL を用いた NN の対数乗算可能性の再構成を行い,バックプロパゲーションを用いた効率的なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-02-21T20:23:56Z) - Learning Optimal Flows for Non-Equilibrium Importance Sampling [13.469239537683299]
簡単なベース分布からサンプルを生成し,速度場によって生成された流れに沿って移動し,これらの流れに沿って平均を実行する手法を開発した。
理論面では、ターゲットに対する速度場を調整し、提案した推定器が完全推定器となる一般的な条件を確立する方法について論じる。
計算面では、ニューラルネットワークによる速度場を表現するためにディープラーニングを使用して、ゼロ分散最適化に向けて学習する方法を示す。
論文 参考訳(メタデータ) (2022-06-20T17:25:26Z) - Learning Distributions by Generative Adversarial Networks: Approximation
and Generalization [0.6768558752130311]
本研究では,これらのモデルの収束速度を解析することにより,有限サンプルから生成逆数ネットワークがいかによく学習するかを考察する。
我々の分析は、GANの推定誤差を判別器とジェネレータの近似誤差に分解する新しい不等式オラクルに基づいている。
生成元近似誤差に対して、ニューラルネットワークは、およそ低次元のソース分布を高次元のターゲット分布に変換することができることを示す。
論文 参考訳(メタデータ) (2022-05-25T09:26:17Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Distributionally Robust Parametric Maximum Likelihood Estimation [13.09499764232737]
パラメトリックな名目分布に対して,最悪の場合のログロスを均一に最小化する,分布的に頑健な最大確率推定器を提案する。
我々の新しい頑健な推定器は、統計的整合性も享受し、回帰と分類の両方に有望な実験結果を提供する。
論文 参考訳(メタデータ) (2020-10-11T19:05:49Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z) - Interpolation and Learning with Scale Dependent Kernels [91.41836461193488]
非パラメトリックリッジレス最小二乗の学習特性について検討する。
スケール依存カーネルで定義される推定器の一般的な場合を考える。
論文 参考訳(メタデータ) (2020-06-17T16:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。