論文の概要: On Tail Decay Rate Estimation of Loss Function Distributions
- arxiv url: http://arxiv.org/abs/2306.02807v1
- Date: Mon, 5 Jun 2023 11:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:20:37.382416
- Title: On Tail Decay Rate Estimation of Loss Function Distributions
- Title(参考訳): 損失関数分布のテール減衰率推定について
- Authors: Etrit Haxholli, Marco Lorenzi
- Abstract要約: 我々は辺分布の尾部を推定する新しい理論を開発した。
一定の規則性条件下では、境界分布の形状パラメータは条件分布の族における最大尾形パラメータであることを示す。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study of loss function distributions is critical to characterize a
model's behaviour on a given machine learning problem. For example, while the
quality of a model is commonly determined by the average loss assessed on a
testing set, this quantity does not reflect the existence of the true mean of
the loss distribution. Indeed, the finiteness of the statistical moments of the
loss distribution is related to the thickness of its tails, which are generally
unknown. Since typical cross-validation schemes determine a family of testing
loss distributions conditioned on the training samples, the total loss
distribution must be recovered by marginalizing over the space of training
sets. As we show in this work, the finiteness of the sampling procedure
negatively affects the reliability and efficiency of classical tail estimation
methods from the Extreme Value Theory, such as the Peaks-Over-Threshold
approach. In this work we tackle this issue by developing a novel general
theory for estimating the tails of marginal distributions, when there exists a
large variability between locations of the individual conditional distributions
underlying the marginal. To this end, we demonstrate that under some regularity
conditions, the shape parameter of the marginal distribution is the maximum
tail shape parameter of the family of conditional distributions. We term this
estimation approach as Cross Tail Estimation (CTE). We test cross-tail
estimation in a series of experiments on simulated and real data, showing the
improved robustness and quality of tail estimation as compared to classical
approaches, and providing evidence for the relationship between overfitting and
loss distribution tail thickness.
- Abstract(参考訳): 損失関数分布の研究は、与えられた機械学習問題に対するモデルの振る舞いを特徴付けるのに不可欠である。
例えば、モデルの品質はテストセットで評価された平均損失によって一般的に決定されるが、この量は損失分布の真の平均の存在を反映していない。
実際、損失分布の統計モーメントの有限性は、一般的には知られていない尾の厚さと関連している。
典型的なクロスバリデーションスキームは、トレーニングサンプルに条件付きテスト損失分布の族を決定するため、トレーニングセットの空間を余剰化することにより、全体の損失分布を復元する必要がある。
この研究で示すように、サンプリング手順の有限性は、ピークス・オーヴァー・サースホールド法のようなエクストリーム値理論からの古典的テール推定手法の信頼性と効率に悪影響を及ぼす。
本研究は,各条件分布の位置間の大きなばらつきが存在する場合に,境界分布の尾部を推定するための新しい一般理論を開発することにより,この問題に対処する。
そこで本研究では,いくつかの正規性条件下では,辺縁分布の形状パラメータが条件分布の最大テール形状パラメータであることを示す。
この推定手法をCTE(Cross Tail Estimation)と呼ぶ。
シミュレーションデータと実データを用いたクロステール推定実験を行い,古典的手法と比較して高剛性と品質が向上したことを示すとともに,オーバーフィットと損失分布のテール厚みの関係を示す。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - A Bayesian Semiparametric Method For Estimating Causal Quantile Effects [1.1118668841431563]
擬似分布の任意の関数を推測できる半パラメトリックな条件分布回帰モデルを提案する。
共振調整に二重バランススコアを用いることで, 単一スコアのみの調整よりも性能が向上することを示す。
提案手法をノースカロライナ出生体重データセットに適用し,母体喫煙が幼児の出生体重に与える影響を解析した。
論文 参考訳(メタデータ) (2022-11-03T05:15:18Z) - Estimating the Contamination Factor's Distribution in Unsupervised
Anomaly Detection [7.174572371800215]
異常検出手法は、期待された振る舞いに従わない例を特定する。
異常として示される例の比率は、汚染因子と呼ばれる異常の予想割合と等しい。
ラベルのないデータセットの汚染係数の後方分布を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T11:51:25Z) - Reliable amortized variational inference with physics-based latent
distribution correction [0.4588028371034407]
ニューラルネットワークは、既存のモデルとデータのペアの後方分布を近似するように訓練される。
このアプローチの精度は、高忠実度トレーニングデータの可用性に依存する。
補正ステップは, ソース実験数の変化, ノイズ分散, 先行分布の変化に対して, 償却された変分推論の頑健さを向上することを示す。
論文 参考訳(メタデータ) (2022-07-24T02:38:54Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Distributionally Robust Parametric Maximum Likelihood Estimation [13.09499764232737]
パラメトリックな名目分布に対して,最悪の場合のログロスを均一に最小化する,分布的に頑健な最大確率推定器を提案する。
我々の新しい頑健な推定器は、統計的整合性も享受し、回帰と分類の両方に有望な実験結果を提供する。
論文 参考訳(メタデータ) (2020-10-11T19:05:49Z) - Empirical Strategy for Stretching Probability Distribution in
Neural-network-based Regression [5.35308390309106]
ニューラルネットワーク下での回帰解析では、予測性能は層間の適切な重み決定に依存する。
両分布の重み付け面積を増大させる新しい損失関数として重み付き経験的ストレッチ(WES)を提案する。
極端な領域に対するRMSEの改良結果は、非線形複雑系における異常事象の予測に利用されることが期待されている。
論文 参考訳(メタデータ) (2020-09-08T06:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。