論文の概要: Denoising Low-Rank Data Under Distribution Shift: Double Descent and
Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.17297v2
- Date: Tue, 24 Oct 2023 13:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:22:53.351729
- Title: Denoising Low-Rank Data Under Distribution Shift: Double Descent and
Data Augmentation
- Title(参考訳): 分布シフト下での低ランクデータの雑音化:二重降下とデータ拡張
- Authors: Chinmaya Kausik and Kashvi Srivastava and Rishi Sonthalia
- Abstract要約: 教師付き denoising を研究する上での懸念は,テスト分布からのノイズレストレーニングデータが常に存在するとは限らないことだ。
そこで本研究では,分散シフト下での教師付きノイズ除去とノイズインプット回帰について検討した。
- 参考スコア(独自算出の注目度): 3.9134031118910264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the importance of denoising in modern machine learning and ample
empirical work on supervised denoising, its theoretical understanding is still
relatively scarce. One concern about studying supervised denoising is that one
might not always have noiseless training data from the test distribution. It is
more reasonable to have access to noiseless training data from a different
dataset than the test dataset. Motivated by this, we study supervised denoising
and noisy-input regression under distribution shift. We add three
considerations to increase the applicability of our theoretical insights to
real-life data and modern machine learning. First, while most past theoretical
work assumes that the data covariance matrix is full-rank and well-conditioned,
empirical studies have shown that real-life data is approximately low-rank.
Thus, we assume that our data matrices are low-rank. Second, we drop
independence assumptions on our data. Third, the rise in computational power
and dimensionality of data have made it important to study non-classical
regimes of learning. Thus, we work in the non-classical proportional regime,
where data dimension $d$ and number of samples $N$ grow as $d/N = c + o(1)$.
For this setting, we derive general test error expressions for both denoising
and noisy-input regression, and study when overfitting the noise is benign,
tempered or catastrophic. We show that the test error exhibits double descent
under general distribution shift, providing insights for data augmentation and
the role of noise as an implicit regularizer. We also perform experiments using
real-life data, where we match the theoretical predictions with under 1% MSE
error for low-rank data.
- Abstract(参考訳): 現代の機械学習におけるデノイジングの重要性と、教師付きデノイジングに関する豊富な経験的研究にもかかわらず、その理論的理解は比較的少ない。
教師付きdenoisingを研究することの1つの懸念は、テスト分布からのノイズレストレーニングデータが常に存在するとは限らないことである。
テストデータセットとは異なるデータセットからノイズレストレーニングデータにアクセスするのは、より合理的である。
そこで本研究では,分布シフト下での分節化と雑音入力回帰について検討した。
実生活データや現代の機械学習への理論的洞察の適用性を高めるために、3つの考察を加えます。
第一に、過去の理論的な研究は、データ共分散行列はフルランクでよく条件付けされていると仮定しているが、実生活データはおよそローランクである。
したがって、データ行列は低ランクであると仮定する。
第2に、データの独立性の前提を下げます。
第3に、計算能力の増大とデータの次元性は、非古典的学習体制の研究を重要視している。
したがって、データ次元$d$とサンプル数$N$が$d/N = c + o(1)$として成長する非古典的比例法で作業する。
この設定では,雑音と雑音の回帰に対する一般的なテストエラー表現を導出し,雑音の過大さが良性,緊張的,あるいは破滅的である場合の研究を行う。
テスト誤差は一般分布シフト下で二重降下を示し,データ拡張と暗黙的正規化としてのノイズの役割についての洞察を与える。
また、実生活データを用いて実験を行い、その理論予測を低ランクデータに対する1% MSE誤差と一致させる。
関連論文リスト
- DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model [9.908561639396273]
DiffImputeという新しい拡散確率モデル(DDPM)を提案する。
既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。
Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
論文 参考訳(メタデータ) (2024-03-20T08:45:31Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Learning to Abstain From Uninformative Data [20.132146513548843]
本研究では,一般的なノイズ発生過程下での学習と行動の問題について検討する。
この問題において、データ分布はラベルに高ノイズの非形式的なサンプルのかなりの割合を有する。
本稿では,選択学習理論に着想を得た損失を生かして,これらの条件下での学習に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-25T15:55:55Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Learning from Noisy Similar and Dissimilar Data [84.76686918337134]
ノイズSとDラベル付きデータから分類器を学習する方法を示す。
また、このような相互監督データからの学習と、通常のクラスラベルデータからの学習との間に重要な関連性を示す。
論文 参考訳(メタデータ) (2020-02-03T19:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。