論文の概要: Optimal regularizations for data generation with probabilistic graphical
models
- arxiv url: http://arxiv.org/abs/2112.01292v1
- Date: Thu, 2 Dec 2021 14:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:33:50.828178
- Title: Optimal regularizations for data generation with probabilistic graphical
models
- Title(参考訳): 確率的グラフィカルモデルを用いたデータ生成のための最適正規化
- Authors: Arnaud Fanthomme (ENS Paris), F Rizzato, S Cocco, R Monasson
- Abstract要約: 経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the role of regularization is a central question in Statistical
Inference. Empirically, well-chosen regularization schemes often dramatically
improve the quality of the inferred models by avoiding overfitting of the
training data. We consider here the particular case of L 2 and L 1
regularizations in the Maximum A Posteriori (MAP) inference of generative
pairwise graphical models. Based on analytical calculations on Gaussian
multivariate distributions and numerical experiments on Gaussian and Potts
models we study the likelihoods of the training, test, and 'generated data'
(with the inferred models) sets as functions of the regularization strengths.
We show in particular that, at its maximum, the test likelihood and the
'generated' likelihood, which quantifies the quality of the generated samples,
have remarkably close values. The optimal value for the regularization strength
is found to be approximately equal to the inverse sum of the squared couplings
incoming on sites on the underlying network of interactions. Our results seem
largely independent of the structure of the true underlying interactions that
generated the data, of the regularization scheme considered, and are valid when
small fluctuations of the posterior distribution around the MAP estimator are
taken into account. Connections with empirical works on protein models learned
from homologous sequences are discussed.
- Abstract(参考訳): 正規化の役割を理解することは統計的推論における中心的な問題である。
経験的に、よくできた正規化スキームは、トレーニングデータの過度な適合を避けることで、推論されたモデルの品質を劇的に改善する。
ここでは、生成的ペアワイズグラフモデルの最大A Posteriori(MAP)推論におけるL2およびL1正規化の特別な場合を考える。
ガウス多変量分布の解析計算とガウスモデルとポッツモデルに関する数値実験に基づいて、正規化強度の関数としてトレーニング、テスト、および(推定されたモデルによる)「生成データ」セットの可能性を研究する。
特に, 最大値において, 生成した試料の品質を定量化する「生成」確率は, 極めて近い値であることが示されている。
正則化強度の最適値は、基礎となる相互作用のネットワーク上の部位に現れる二乗結合の逆和とほぼ等しいことが判明した。
以上の結果は,データ生成する真の基礎的相互作用の構造,考慮された正規化スキームの構造とほぼ独立にみられ,地図推定器周辺の後方分布の小さなゆらぎが考慮された場合に有効である。
相同配列から得られたタンパク質モデルに関する経験的研究との関係について論じる。
関連論文リスト
- Statistical Inference in Classification of High-dimensional Gaussian Mixture [1.2354076490479515]
高次元極限における正規化凸分類器の一般クラスの挙動について検討する。
我々の焦点は、推定器の一般化誤差と変数選択性である。
論文 参考訳(メタデータ) (2024-10-25T19:58:36Z) - A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。