論文の概要: Neural Stein critics with staged $L^2$-regularization
- arxiv url: http://arxiv.org/abs/2207.03406v1
- Date: Thu, 7 Jul 2022 16:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 17:39:38.713766
- Title: Neural Stein critics with staged $L^2$-regularization
- Title(参考訳): L^2$-regularizationによるニューラルスタイン批判
- Authors: Matthew Repasky, Xiuyuan Cheng, Yao Xie
- Abstract要約: シュタイン差分のような確率分布の格差を定量化する計量は、高次元における統計的テストにおいて重要な役割を果たす。
ニューラルネットワークStein離散性批判関数のトレーニングにおける$L2$正規化の役割について検討する。
- 参考スコア(独自算出の注目度): 15.793267225282571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to differentiate model distributions from observed data is a
fundamental problem in statistics and machine learning, and high-dimensional
data remains a challenging setting for such problems. Metrics that quantify the
disparity in probability distributions, such as the Stein discrepancy, play an
important role in statistical testing in high dimensions. In this paper, we
consider the setting where one wishes to distinguish between data sampled from
an unknown probability distribution and a nominal model distribution. While
recent studies revealed that the optimal $L^2$-regularized Stein critic equals
the difference of the score functions of two probability distributions up to a
multiplicative constant, we investigate the role of $L^2$ regularization when
training a neural network Stein discrepancy critic function. Motivated by the
Neural Tangent Kernel theory of training neural networks, we develop a novel
staging procedure for the weight of regularization over training time. This
leverages the advantages of highly-regularized training at early times while
also empirically delaying overfitting. Theoretically, we relate the training
dynamic with large regularization weight to the kernel regression optimization
of "lazy training" regime in early training times. The benefit of the staged
$L^2$ regularization is demonstrated on simulated high dimensional distribution
drift data and an application to evaluating generative models of image data.
- Abstract(参考訳): 観測データとモデル分布を区別する学習は統計学と機械学習の基本的な問題であり、高次元データはそのような問題に対して困難な設定のままである。
シュタイン差分のような確率分布の格差を定量化する計量は、高次元における統計的テストにおいて重要な役割を果たす。
本稿では,未知の確率分布からサンプリングされたデータと,名目モデル分布とを区別したい状況について考察する。
最近の研究では、最適な$l^2$-regularized stein criticが2つの確率分布のスコア関数の乗算定数までの違いと等しいことが示されているが、ニューラルネットワークのstein discrepancy critic関数のトレーニングにおける$l^2$ regularizationの役割について検討する。
ニューラルネットワークの学習における神経接核理論に動機づけられ,訓練時間に対する正則化重み付けのための新しいステージング手順を開発した。
これは、初期の高度に規則化されたトレーニングの利点を生かし、オーバーフィッティングを経験的に遅らせる。
理論的には, 初期訓練時間における「遅延トレーニング」のカーネル回帰最適化と, 大正規化重みのトレーニング動的関係を関連づけた。
シミュレーションによる高次元分布ドリフトデータと画像データの生成モデル評価への応用について, 段階的$l^2$正則化の利点を実証した。
関連論文リスト
- Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective [16.610925506252716]
本稿では、比較判断に基づいて人間の選択をモデル化し、予測する嗜好学習のサンプル効率について考察する。
報酬関数のパラメータが$k$-sparseであるスパースランダムユーティリティモデルでは、minimaxの最適値は$Theta(k/n log(d/k))$に還元できる。
論文 参考訳(メタデータ) (2025-01-30T11:41:13Z) - Wasserstein Distributionally Robust Multiclass Support Vector Machine [1.8570591025615457]
データの特徴が $mathbfx$ であり,そのラベルが $mathbfy$ であるような設定におけるマルチクラス分類の問題について検討する。
我々は、分散ロバストな最適化を用いて、クラマー・シンガー(CS)損失を特徴とするマルチクラスサポートベクターマシン(SVM)のロバストバージョンを開発する。
我々の数値実験は、トレーニングデータが高度に不均衡な環境で、我々のモデルが最先端のOVAモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-12T21:40:04Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Distribution learning via neural differential equations: a nonparametric
statistical perspective [1.4436965372953483]
この研究は、確率変換によって訓練されたODEモデルによる分布学習のための最初の一般統計収束解析を確立する。
後者はクラス $mathcal F$ の$C1$-metric entropy で定量化できることを示す。
次に、この一般フレームワークを$Ck$-smoothターゲット密度の設定に適用し、関連する2つの速度場クラスに対する最小最適収束率を$mathcal F$:$Ck$関数とニューラルネットワークに設定する。
論文 参考訳(メタデータ) (2023-09-03T00:21:37Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Analysis of feature learning in weight-tied autoencoders via the mean
field lens [3.553493344868413]
平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
論文 参考訳(メタデータ) (2021-02-16T18:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。