論文の概要: The Randomness of Input Data Spaces is an A Priori Predictor for
Generalization
- arxiv url: http://arxiv.org/abs/2106.04181v1
- Date: Tue, 8 Jun 2021 08:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-10 05:33:17.057217
- Title: The Randomness of Input Data Spaces is an A Priori Predictor for
Generalization
- Title(参考訳): 入力データ空間のランダム性は一般化の優先予測因子である
- Authors: Martin Briesch, Dominik Sobania and Franz Rothlauf
- Abstract要約: この研究は、入力データによって定義される探索空間に焦点を当て、近隣の入力値のラベル間の相関が一般化に影響を与えると仮定する。
相関が低い場合、入力データ空間のランダム性が高くなり、高い一般化誤差が生じる。
合成分類タスクと共通画像分類ベンチマークの結果は、入力データ空間のランダム性と二項分類問題に対するディープニューラルネットワークの一般化誤差との間に高い相関関係を見出した。
- 参考スコア(独自算出の注目度): 2.2559617939136505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over-parameterized models can perfectly learn various types of data
distributions, however, generalization error is usually lower for real data in
comparison to artificial data. This suggests that the properties of data
distributions have an impact on generalization capability. This work focuses on
the search space defined by the input data and assumes that the correlation
between labels of neighboring input values influences generalization. If
correlation is low, the randomness of the input data space is high leading to
high generalization error. We suggest to measure the randomness of an input
data space using Maurer's universal. Results for synthetic classification tasks
and common image classification benchmarks (MNIST, CIFAR10, and Microsoft's
cats vs. dogs data set) find a high correlation between the randomness of input
data spaces and the generalization error of deep neural networks for binary
classification problems.
- Abstract(参考訳): 過パラメータモデルは様々な種類のデータ分布を完璧に学習することができるが、一般化誤差は通常、人工データと比較して実際のデータよりも低い。
これは、データ分布の特性が一般化能力に影響を及ぼすことを示唆している。
本研究は入力データによって定義される探索空間に着目し、隣接する入力値のラベル間の相関が一般化に影響を及ぼすと仮定する。
相関が低い場合、入力データ空間のランダム性が高くなり、高い一般化誤差が生じる。
maurer's universal を用いて入力データ空間のランダム性を測定することを提案する。
合成分類タスクと共通画像分類ベンチマーク(mnist, cifar10, microsoft's cats vs. dogs data set)の結果,入力データ空間のランダム性と,バイナリ分類問題に対するディープニューラルネットワークの一般化誤差との間に高い相関性が得られた。
関連論文リスト
- Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Gaussian Universality of Linear Classifiers with Random Labels in
High-Dimension [24.503842578208268]
高次元における生成モデルから得られるデータは、ガウスデータと対応するデータ共分散の最小限の訓練損失を持つことを示す。
特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。
論文 参考訳(メタデータ) (2022-05-26T12:25:24Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Graph-LDA: Graph Structure Priors to Improve the Accuracy in Few-Shot
Classification [6.037383467521294]
本稿では、2つのノイズ源で観測されたクラス信号が劣化することが想定されるジェネリックモデルを提案する。
このような信号を分類する最適な手法を導出する。
この手法には単一のパラメータが含まれており、利用可能なデータが不足している場合に特に適している。
論文 参考訳(メタデータ) (2021-08-23T21:55:45Z) - Imputation of Missing Data with Class Imbalance using Conditional
Generative Adversarial Networks [24.075691766743702]
そこで本研究では,そのクラス固有の特徴に基づいて,欠落したデータを出力する新しい手法を提案する。
CGAIN(Con Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて、欠落したデータをインプットする。
提案手法をベンチマークデータセットで検証し,最先端の計算手法や一般的な計算手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-01T02:26:54Z) - The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。
我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。