Fugu-MT 論文翻訳(概要): Generalization Error without Independence: Denoising, Linear Regression, and Transfer Learning

論文の概要: Generalization Error without Independence: Denoising, Linear Regression, and Transfer Learning

arxiv url: http://arxiv.org/abs/2305.17297v1
Date: Fri, 26 May 2023 22:41:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 20:32:07.037311
Title: Generalization Error without Independence: Denoising, Linear Regression, and Transfer Learning
Title（参考訳）: 独立性のない一般化誤差 : 雑音化,線形回帰,伝達学習
Authors: Chinmaya Kausik and Kashvi Srivastava and Rishi Sonthalia
Abstract要約: I.I.D.ではなく、低ランクな構造を持つデータを見てみよう。本稿では,デノナイジング問題の一般化誤差に関する解析式について述べる。我々は、実データに対する理論結果の全てを検証し、相対平均2乗誤差は約1%である。
参考スコア（独自算出の注目度）: 2.578242050187029
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Studying the generalization abilities of linear models with real data is a central question in statistical learning. While there exist a limited number of prior important works (Loureiro et al. (2021A, 2021B), Wei et al. 2022) that do validate theoretical work with real data, these works have limitations due to technical assumptions. These assumptions include having a well-conditioned covariance matrix and having independent and identically distributed data. These assumptions are not necessarily valid for real data. Additionally, prior works that do address distributional shifts usually make technical assumptions on the joint distribution of the train and test data (Tripuraneni et al. 2021, Wu and Xu 2020), and do not test on real data. In an attempt to address these issues and better model real data, we look at data that is not I.I.D. but has a low-rank structure. Further, we address distributional shift by decoupling assumptions on the training and test distribution. We provide analytical formulas for the generalization error of the denoising problem that are asymptotically exact. These are used to derive theoretical results for linear regression, data augmentation, principal component regression, and transfer learning. We validate all of our theoretical results on real data and have a low relative mean squared error of around 1% between the empirical risk and our estimated risk.
Abstract（参考訳）: 実データを用いた線形モデルの一般化能力の研究は、統計学習における中心的な問題である。初期の重要な著作物(loureiro et al. (2021a, 2021b)、wei et al. 2022)は、実データを用いて理論的な業績を検証しているが、これらの作品には技術的仮定による制限がある。これらの仮定は、よく条件付き共分散行列を持ち、独立で同一の分散データを持つ。これらの仮定は必ずしも実データに当てはまるものではない。さらに、配電シフトに対処する以前の作業は、通常、列車とテストデータの共同分布に関する技術的仮定(Tripuraneni et al. 2021, Wu, Xu 2020)を行い、実際のデータではテストしない。これらの問題に対処し、より優れた実データモデルを構築するために、I.I.D.ではなく低ランク構造を持つデータについて検討する。さらに,トレーニングとテスト分布の仮定を分離することで,分布変化に対処する。漸近的に厳密な分別問題の一般化誤差に対する解析公式を提供する。これらは線形回帰、データ拡張、主成分回帰、転送学習の理論的結果を引き出すために使われる。我々は,実データを用いた理論結果の検証を行い,平均二乗誤差が,経験的リスクと推定リスクの約1%であることを確認した。

関連論文リスト

Classifying Long-tailed and Label-noise Data via Disentangling and Unlearning [58.052712054684946]
実世界のデータセットでは、長い尾の分布とノイズラベルの課題はしばしば共存する。本稿では,長い尾とラベルノイズデータに対するディスタングルとアンラーニングという新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-14T13:58:27Z)
Rethinking Benign Overfitting in Two-Layer Neural Networks [2.486161976966064]
我々は、クラス依存の異種ノイズを取り入れて特徴雑音データモデルを洗練し、ニューラルネットワークにおける過剰適合現象を再検討する。ニューラルネットワークは「データノイズ」を利用して暗黙的な特徴を学習し、長い尾を持つデータの分類精度を向上させる。
論文参考訳（メタデータ） (2025-02-17T15:20:04Z)
DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model [9.908561639396273]
DiffImputeという新しい拡散確率モデル(DDPM)を提案する。既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。 Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
論文参考訳（メタデータ） (2024-03-20T08:45:31Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Learning to Abstain From Uninformative Data [20.132146513548843]
本研究では,一般的なノイズ発生過程下での学習と行動の問題について検討する。この問題において、データ分布はラベルに高ノイズの非形式的なサンプルのかなりの割合を有する。本稿では,選択学習理論に着想を得た損失を生かして,これらの条件下での学習に新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-09-25T15:55:55Z)
On-the-fly Denoising for Data Augmentation in Natural Language Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文参考訳（メタデータ） (2022-12-20T18:58:33Z)
The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文参考訳（メタデータ） (2022-03-02T13:59:20Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
Learning from Noisy Similar and Dissimilar Data [84.76686918337134]
ノイズSとDラベル付きデータから分類器を学習する方法を示す。また、このような相互監督データからの学習と、通常のクラスラベルデータからの学習との間に重要な関連性を示す。
論文参考訳（メタデータ） (2020-02-03T19:59:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。