論文の概要: Neural Stein critics with staged $L^2$-regularization
- arxiv url: http://arxiv.org/abs/2207.03406v3
- Date: Tue, 2 May 2023 01:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 18:02:47.045109
- Title: Neural Stein critics with staged $L^2$-regularization
- Title(参考訳): L^2$-regularizationによるニューラルスタイン批判
- Authors: Matthew Repasky, Xiuyuan Cheng, Yao Xie
- Abstract要約: ニューラルネットワーク批判者のトレーニングにおける$L2$正規化の役割について検討する。
トレーニング時間における正規化の重み付けのための新しいステージング手法を開発した。
実演された$L2$正規化の利点は、シミュレーションされた高次元データに示される。
- 参考スコア(独自算出の注目度): 15.793267225282571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to differentiate model distributions from observed data is a
fundamental problem in statistics and machine learning, and high-dimensional
data remains a challenging setting for such problems. Metrics that quantify the
disparity in probability distributions, such as the Stein discrepancy, play an
important role in high-dimensional statistical testing. In this paper, we
investigate the role of $L^2$ regularization in training a neural network Stein
critic so as to distinguish between data sampled from an unknown probability
distribution and a nominal model distribution. Making a connection to the
Neural Tangent Kernel (NTK) theory, we develop a novel staging procedure for
the weight of regularization over training time, which leverages the advantages
of highly-regularized training at early times. Theoretically, we prove the
approximation of the training dynamic by the kernel optimization, namely the
``lazy training'', when the $L^2$ regularization weight is large, and training
on $n$ samples converge at a rate of ${O}(n^{-1/2})$ up to a log factor. The
result guarantees learning the optimal critic assuming sufficient alignment
with the leading eigen-modes of the zero-time NTK. The benefit of the staged
$L^2$ regularization is demonstrated on simulated high dimensional data and an
application to evaluating generative models of image data.
- Abstract(参考訳): 観測データとモデル分布を区別する学習は統計学と機械学習の基本的な問題であり、高次元データはそのような問題に対して困難な設定のままである。
スタイン差分のような確率分布の格差を定量化する計量は、高次元統計検査において重要な役割を果たす。
本稿では,未知確率分布からサンプリングされたデータと名目モデル分布とを区別するために,ニューラルネットワーク批判者の訓練における$l^2$正規化の役割について検討する。
神経接核(neural tangent kernel, ntk)理論と関連づけ, 初期における高正規化トレーニングの利点を活かし, 訓練時間に対する正則化の重み付けのための新しいステージング手順を開発した。
理論的には、l^2$の正規化重みが大きい場合、カーネル最適化によるトレーニングダイナミクスの近似、すなわち `lazy training'' を証明し、n$のサンプルのトレーニングは${o}(n^{-1/2})$の対数係数で収束する。
その結果、ゼロタイムNTKの先頭の固有モードと十分な整合性を仮定した最適批評家の学習が保証される。
実演した$L^2$正規化の利点は、シミュレーションされた高次元データと画像データの生成モデル評価への応用について示す。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression: A Distribution-Free Analysis [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクが$cO(eps_n2)$のシャープレートを示す。
本研究の結果は,トレーニングデータに分布的な仮定を必要としないことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - Wasserstein Distributionally Robust Multiclass Support Vector Machine [1.8570591025615457]
データの特徴が $mathbfx$ であり,そのラベルが $mathbfy$ であるような設定におけるマルチクラス分類の問題について検討する。
我々は、分散ロバストな最適化を用いて、クラマー・シンガー(CS)損失を特徴とするマルチクラスサポートベクターマシン(SVM)のロバストバージョンを開発する。
我々の数値実験は、トレーニングデータが高度に不均衡な環境で、我々のモデルが最先端のOVAモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-12T21:40:04Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Distribution learning via neural differential equations: a nonparametric
statistical perspective [1.4436965372953483]
この研究は、確率変換によって訓練されたODEモデルによる分布学習のための最初の一般統計収束解析を確立する。
後者はクラス $mathcal F$ の$C1$-metric entropy で定量化できることを示す。
次に、この一般フレームワークを$Ck$-smoothターゲット密度の設定に適用し、関連する2つの速度場クラスに対する最小最適収束率を$mathcal F$:$Ck$関数とニューラルネットワークに設定する。
論文 参考訳(メタデータ) (2023-09-03T00:21:37Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Analysis of feature learning in weight-tied autoencoders via the mean
field lens [3.553493344868413]
平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
論文 参考訳(メタデータ) (2021-02-16T18:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。