論文の概要: Generalization Error without Independence: Denoising, Linear Regression,
and Transfer Learning
- arxiv url: http://arxiv.org/abs/2305.17297v1
- Date: Fri, 26 May 2023 22:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:32:07.037311
- Title: Generalization Error without Independence: Denoising, Linear Regression,
and Transfer Learning
- Title(参考訳): 独立性のない一般化誤差 : 雑音化,線形回帰,伝達学習
- Authors: Chinmaya Kausik and Kashvi Srivastava and Rishi Sonthalia
- Abstract要約: I.I.D.ではなく、低ランクな構造を持つデータを見てみよう。
本稿では,デノナイジング問題の一般化誤差に関する解析式について述べる。
我々は、実データに対する理論結果の全てを検証し、相対平均2乗誤差は約1%である。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studying the generalization abilities of linear models with real data is a
central question in statistical learning. While there exist a limited number of
prior important works (Loureiro et al. (2021A, 2021B), Wei et al. 2022) that do
validate theoretical work with real data, these works have limitations due to
technical assumptions. These assumptions include having a well-conditioned
covariance matrix and having independent and identically distributed data.
These assumptions are not necessarily valid for real data. Additionally, prior
works that do address distributional shifts usually make technical assumptions
on the joint distribution of the train and test data (Tripuraneni et al. 2021,
Wu and Xu 2020), and do not test on real data.
In an attempt to address these issues and better model real data, we look at
data that is not I.I.D. but has a low-rank structure. Further, we address
distributional shift by decoupling assumptions on the training and test
distribution. We provide analytical formulas for the generalization error of
the denoising problem that are asymptotically exact. These are used to derive
theoretical results for linear regression, data augmentation, principal
component regression, and transfer learning. We validate all of our theoretical
results on real data and have a low relative mean squared error of around 1%
between the empirical risk and our estimated risk.
- Abstract(参考訳): 実データを用いた線形モデルの一般化能力の研究は、統計学習における中心的な問題である。
初期の重要な著作物(loureiro et al. (2021a, 2021b)、wei et al. 2022)は、実データを用いて理論的な業績を検証しているが、これらの作品には技術的仮定による制限がある。
これらの仮定は、よく条件付き共分散行列を持ち、独立で同一の分散データを持つ。
これらの仮定は必ずしも実データに当てはまるものではない。
さらに、配電シフトに対処する以前の作業は、通常、列車とテストデータの共同分布に関する技術的仮定(Tripuraneni et al. 2021, Wu, Xu 2020)を行い、実際のデータではテストしない。
これらの問題に対処し、より優れた実データモデルを構築するために、I.I.D.ではなく低ランク構造を持つデータについて検討する。
さらに,トレーニングとテスト分布の仮定を分離することで,分布変化に対処する。
漸近的に厳密な分別問題の一般化誤差に対する解析公式を提供する。
これらは線形回帰、データ拡張、主成分回帰、転送学習の理論的結果を引き出すために使われる。
我々は,実データを用いた理論結果の検証を行い,平均二乗誤差が,経験的リスクと推定リスクの約1%であることを確認した。
関連論文リスト
- DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model [9.908561639396273]
DiffImputeという新しい拡散確率モデル(DDPM)を提案する。
既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。
Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
論文 参考訳(メタデータ) (2024-03-20T08:45:31Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Learning to Abstain From Uninformative Data [20.132146513548843]
本研究では,一般的なノイズ発生過程下での学習と行動の問題について検討する。
この問題において、データ分布はラベルに高ノイズの非形式的なサンプルのかなりの割合を有する。
本稿では,選択学習理論に着想を得た損失を生かして,これらの条件下での学習に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-25T15:55:55Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Learning from Noisy Similar and Dissimilar Data [84.76686918337134]
ノイズSとDラベル付きデータから分類器を学習する方法を示す。
また、このような相互監督データからの学習と、通常のクラスラベルデータからの学習との間に重要な関連性を示す。
論文 参考訳(メタデータ) (2020-02-03T19:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。