論文の概要: Gaussian and Non-Gaussian Universality of Data Augmentation
- arxiv url: http://arxiv.org/abs/2202.09134v4
- Date: Sat, 15 Mar 2025 20:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:29:57.233156
- Title: Gaussian and Non-Gaussian Universality of Data Augmentation
- Title(参考訳): データ拡張のガウス的および非ガウス的普遍性
- Authors: Kevin Han Huang, Peter Orbanz, Morgane Austern,
- Abstract要約: 単純なサロゲートを用いて,データの増大が推定値の分散や分布の制限にどのように影響するかを定量化する。
データの増大は、経験的予測リスクのような見積もりの不確実性を減らすよりも増加する可能性がある。
主理論ツールとして、ブロック依存に対するリンデバーグの手法の適応を開発する。
- 参考スコア(独自算出の注目度): 6.51882364384472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide universality results that quantify how data augmentation affects the variance and limiting distribution of estimates through simple surrogates, and analyze several specific models in detail. The results confirm some observations made in machine learning practice, but also lead to unexpected findings: Data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. It can act as a regularizer, but fails to do so in certain high-dimensional problems, and it may shift the double-descent peak of an empirical risk. Overall, the analysis shows that several properties data augmentation has been attributed with are not either true or false, but rather depend on a combination of factors -- notably the data distribution, the properties of the estimator, and the interplay of sample size, number of augmentations, and dimension. As our main theoretical tool, we develop an adaptation of Lindeberg's technique for block dependence. The resulting universality regime may be Gaussian or non-Gaussian.
- Abstract(参考訳): データの増大が単純なサロゲートを通して推定値の分散と分布の制限に与える影響を定量化し、いくつかの特定のモデルを詳細に分析する。
結果は、機械学習の実践において行われたいくつかの観察を裏付けるが、予期せぬ発見をもたらす。 データ拡張は、経験的予測リスクのような見積もりの不確実性を減少させるよりも、増大する可能性がある。
正則化器として作用するが、ある種の高次元問題では失敗し、経験的リスクの二重発光ピークをシフトさせることがある。
全体として、分析の結果、いくつかのプロパティデータ拡張は真か偽かのどちらかではなく、データ分布、推定器の特性、サンプルサイズ、拡張数、次元の相互作用といった要素の組み合わせに依存していることがわかった。
主理論ツールとして、ブロック依存に対するリンデバーグの手法の適応を開発する。
結果として生じる普遍性体制はガウス系か非ガウス系である。
関連論文リスト
- Universality of High-Dimensional Logistic Regression and a Novel CGMT under Dependence with Applications to Data Augmentation [6.092792437962955]
ガウスの普遍性はブロック依存下での高次元ロジスティック回帰に対して依然として成り立つことを証明している。
我々は、深層学習における広範な実践であるデータ強化がリスクに与える影響を確立する。
論文 参考訳(メタデータ) (2025-02-10T18:04:53Z) - Evidential time-to-event prediction model with well-calibrated uncertainty estimation [12.446406577462069]
本稿では,特に時間-時間予測タスクのために設計された明らかな回帰モデルを提案する。
最も確実な事象時間は、集約されたガウスランダムファジィ数(GRFN)によって直接定量化される
我々のモデルは精度と信頼性の両方を達成し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:04Z) - The Breakdown of Gaussian Universality in Classification of High-dimensional Linear Factor Mixtures [6.863637695977277]
一般的な混合データ環境下での分類における経験的リスク最小化の高次元的特徴について述べる。
その分解の影響を理解するために、ガウス普遍性の条件を定義し、損失関数の選択に対するそれらの影響について議論する。
論文 参考訳(メタデータ) (2024-10-08T01:45:37Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile [0.0]
線形回帰に対する尾根推定器の予測リスクを分散プロファイルを用いて検討した。
ある種の分散プロファイルについては、よく知られた二重降下現象の出現に注目した。
また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。
論文 参考訳(メタデータ) (2024-03-29T14:24:49Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Toward Robust Uncertainty Estimation with Random Activation Functions [3.0586855806896045]
本稿では,ランダムアクティベーション関数(RAF)アンサンブルを用いた不確実性定量化手法を提案する。
RAF アンサンブルは、合成データセットと実世界のデータセットの両方において、最先端のアンサンブル不確実性定量化手法より優れている。
論文 参考訳(メタデータ) (2023-02-28T13:17:56Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Variance Minimization in the Wasserstein Space for Invariant Causal
Prediction [72.13445677280792]
そこで本研究では,ICPで行ったアプローチを,予測器数で線形にスケールする一連の非パラメトリックテストとして再検討する。
これらのテストはそれぞれ、最適輸送理論の道具から導かれる新しい損失関数の最小化に依存している。
我々は,本手法が同定可能な直接原因の集合を回復できるという軽微な仮定の下で証明し,他のベンチマーク因果探索アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2021-10-13T22:30:47Z) - BayesIMP: Uncertainty Quantification for Causal Data Fusion [52.184885680729224]
本研究では,複数の因果グラフに関連するデータセットを組み合わせ,対象変数の平均処理効果を推定する因果データ融合問題について検討する。
本稿では、確率積分とカーネル平均埋め込みのアイデアを組み合わせて、再生されたカーネルヒルベルト空間における干渉分布を表現するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-07T10:14:18Z) - Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。
様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文 参考訳(メタデータ) (2021-05-19T12:37:02Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Identification of Latent Variables From Graphical Model Residuals [0.0]
本稿では,推定モデルの残差から遅延空間のプロキシを反復的に導出することにより,DAGを推定する際に潜伏空間を制御する新しい手法を提案する。
結果の予測の改善は本質的にカプセル化されており,既成モデルと比較して一定の限界を超えないことを示す。
論文 参考訳(メタデータ) (2021-01-07T02:28:49Z) - Information Theory Measures via Multidimensional Gaussianization [7.788961560607993]
情報理論は、データやシステムの不確実性、依存、関連性を測定するための優れたフレームワークである。
現実世界の応用にはいくつかの望ましい性質がある。
しかし,多次元データから情報を取得することは,次元性の呪いによる難題である。
論文 参考訳(メタデータ) (2020-10-08T07:22:16Z) - On Data Augmentation and Adversarial Risk: An Empirical Analysis [9.586672294115075]
我々は,異なるデータ拡張手法が敵のリスクに与える影響を3つの尺度で分析する。
データ拡張による分類性能の向上は、常に敵攻撃によるリスクの改善を伴うという仮説を否定する。
以上の結果から, 拡張されたデータは, 拡張されていないデータよりも, 結果のモデルに強い影響があることが判明した。
論文 参考訳(メタデータ) (2020-07-06T11:16:18Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。