論文の概要: Data Augmentation in the Underparameterized and Overparameterized
Regimes
- arxiv url: http://arxiv.org/abs/2202.09134v3
- Date: Thu, 28 Sep 2023 17:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 23:26:50.249260
- Title: Data Augmentation in the Underparameterized and Overparameterized
Regimes
- Title(参考訳): パラメータ化・過パラメータ化レジームにおけるデータ増大
- Authors: Kevin Han Huang, Peter Orbanz, Morgane Austern
- Abstract要約: 我々は,データの増大が推定値の分散と限定分布に与える影響を定量化する。
その結果、機械学習の実践において行われたいくつかの観察が確認できたが、予期せぬ発見につながった。
- 参考スコア(独自算出の注目度): 7.326504492614808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide results that exactly quantify how data augmentation affects the
variance and limiting distribution of estimates, and analyze several specific
models in detail. The results confirm some observations made in machine
learning practice, but also lead to unexpected findings: Data augmentation may
increase rather than decrease the uncertainty of estimates, such as the
empirical prediction risk. It can act as a regularizer, but fails to do so in
certain high-dimensional problems, and it may shift the double-descent peak of
an empirical risk. Overall, the analysis shows that several properties data
augmentation has been attributed with are not either true or false, but rather
depend on a combination of factors -- notably the data distribution, the
properties of the estimator, and the interplay of sample size, number of
augmentations, and dimension. Our main theoretical tool is a limit theorem for
functions of randomly transformed, high-dimensional random vectors. The proof
draws on work in probability on noise stability of functions of many variables.
- Abstract(参考訳): データの増大が推定値の分散や分布の制限にどのように影響するかを正確に定量化し、いくつかの特定のモデルを詳細に分析する。
結果は、機械学習の実践において行われたいくつかの観察を裏付けるが、予期せぬ発見をもたらす。 データ拡張は、経験的予測リスクのような見積もりの不確実性を減少させるよりも、増大する可能性がある。
正則化器として作用するが、ある種の高次元問題では失敗し、経験的リスクの二重発光ピークをシフトさせることがある。
全体として、分析の結果、いくつかのプロパティデータ拡張は真か偽かのどちらかではなく、データ分布、推定器の特性、サンプルサイズ、拡張数、次元の相互作用といった要素の組み合わせに依存していることがわかった。
我々の理論ツールは、ランダム変換された高次元ランダムベクトルの関数に対する極限定理である。
この証明は、多くの変数の関数の雑音安定性の確率で研究されている。
関連論文リスト
- Evidential time-to-event prediction model with well-calibrated uncertainty estimation [12.446406577462069]
本稿では,特に時間-時間予測タスクのために設計された明らかな回帰モデルを提案する。
最も確実な事象時間は、集約されたガウスランダムファジィ数(GRFN)によって直接定量化される
我々のモデルは精度と信頼性の両方を達成し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:04Z) - High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile [0.0]
線形回帰に対する尾根推定器の予測リスクを分散プロファイルを用いて検討した。
ある種の分散プロファイルについては、よく知られた二重降下現象の出現に注目した。
また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。
論文 参考訳(メタデータ) (2024-03-29T14:24:49Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Toward Robust Uncertainty Estimation with Random Activation Functions [3.0586855806896045]
本稿では,ランダムアクティベーション関数(RAF)アンサンブルを用いた不確実性定量化手法を提案する。
RAF アンサンブルは、合成データセットと実世界のデータセットの両方において、最先端のアンサンブル不確実性定量化手法より優れている。
論文 参考訳(メタデータ) (2023-02-28T13:17:56Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Variance Minimization in the Wasserstein Space for Invariant Causal
Prediction [72.13445677280792]
そこで本研究では,ICPで行ったアプローチを,予測器数で線形にスケールする一連の非パラメトリックテストとして再検討する。
これらのテストはそれぞれ、最適輸送理論の道具から導かれる新しい損失関数の最小化に依存している。
我々は,本手法が同定可能な直接原因の集合を回復できるという軽微な仮定の下で証明し,他のベンチマーク因果探索アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2021-10-13T22:30:47Z) - Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。
様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文 参考訳(メタデータ) (2021-05-19T12:37:02Z) - On Data Augmentation and Adversarial Risk: An Empirical Analysis [9.586672294115075]
我々は,異なるデータ拡張手法が敵のリスクに与える影響を3つの尺度で分析する。
データ拡張による分類性能の向上は、常に敵攻撃によるリスクの改善を伴うという仮説を否定する。
以上の結果から, 拡張されたデータは, 拡張されていないデータよりも, 結果のモデルに強い影響があることが判明した。
論文 参考訳(メタデータ) (2020-07-06T11:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。