論文の概要: Demystifying Spectral Bias on Real-World Data
- arxiv url: http://arxiv.org/abs/2406.02663v2
- Date: Mon, 17 Feb 2025 08:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 17:34:05.000431
- Title: Demystifying Spectral Bias on Real-World Data
- Title(参考訳): 実世界データに基づくスペクトルバイアスのデミスティファイション
- Authors: Itay Lavie, Zohar Ringel,
- Abstract要約: カーネルリッジ回帰(KRR)とガウス過程(GP)は統計学と機械学習の基本的なツールである。
我々は、データセット間の学習可能性について検討し、複雑なデータセットのスペクトルバイアスを明らかにするために、高度に理想化されたデータ尺度に関連する固有値と固有関数を用いることを示す。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License:
- Abstract: Kernel ridge regression (KRR) and Gaussian processes (GPs) are fundamental tools in statistics and machine learning, with recent applications to highly over-parameterized deep neural networks. The ability of these tools to learn a target function is directly related to the eigenvalues of their kernel sampled on the input data distribution. Targets that have support on higher eigenvalues are more learnable. However, solving such eigenvalue problems on real-world data remains a challenge. Here, we consider cross-dataset learnability and show that one may use eigenvalues and eigenfunctions associated with highly idealized data measures to reveal spectral bias on complex datasets and bound learnability on real-world data. This allows us to leverage various symmetries that realistic kernels manifest to unravel their spectral bias.
- Abstract(参考訳): カーネルリッジ回帰(KRR)とガウス過程(GP)は統計学と機械学習の基本的なツールであり、近年は過度にパラメータ化されたディープニューラルネットワークへの応用が進んでいる。
これらのツールがターゲット関数を学習する能力は、入力データ分布でサンプリングされたカーネルの固有値に直接関係している。
高い固有値をサポートするターゲットは、より学習しやすい。
しかし、そのような固有値問題を現実世界のデータで解くことは依然として困難である。
本稿では、データセット間の学習可能性について考察し、高度に理想化されたデータ測度に関連する固有値と固有関数を用いて、複雑なデータセットのスペクトルバイアスと実世界のデータの有界学習可能性を明らかにする。
これにより、現実的なカーネルが示す様々な対称性を活用して、スペクトルバイアスを解き放つことができます。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Manifold Learning with Sparse Regularised Optimal Transport [1.949927790632678]
実世界のデータセットはノイズの多い観測とサンプリングを受けており、基礎となる多様体に関する情報を蒸留することが大きな課題である。
本稿では,2次正規化を用いた最適輸送の対称版を利用する多様体学習法を提案する。
得られたカーネルは連続的な極限においてLaplace型演算子と整合性を証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果を数値実験で示す。
論文 参考訳(メタデータ) (2023-07-19T08:05:46Z) - The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets [2.07180164747172]
実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。
我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。
論文 参考訳(メタデータ) (2023-06-26T18:01:47Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Does the Data Induce Capacity Control in Deep Learning? [0.0]
本稿では,データセットがディープネットワークの異常一般化性能の原因である可能性について検討する。
典型的な分類データセットのデータ相関行列は、急激な初期降下の後、指数関数的に広い範囲で多数の小さな固有値が均一に分布する固有スペクトルを持つことを示す。
論文 参考訳(メタデータ) (2021-10-27T04:40:27Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Federated Doubly Stochastic Kernel Learning for Vertically Partitioned
Data [93.76907759950608]
本稿では,垂直分割データに対する2倍のカーネル学習アルゴリズムを提案する。
本稿では,FDSKLがカーネルを扱う場合,最先端のフェデレーション学習手法よりもはるかに高速であることを示す。
論文 参考訳(メタデータ) (2020-08-14T05:46:56Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。