論文の概要: Modeling Generalization in Machine Learning: A Methodological and
Computational Study
- arxiv url: http://arxiv.org/abs/2006.15680v1
- Date: Sun, 28 Jun 2020 19:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:15:40.965335
- Title: Modeling Generalization in Machine Learning: A Methodological and
Computational Study
- Title(参考訳): 機械学習におけるモデリング一般化:方法論的および計算的研究
- Authors: Pietro Barbiero and Giovanni Squillero and Alberto Tonda
- Abstract要約: 我々は、機械学習の一般化を評価する際に、トレーニングデータの凸殻の概念を用いる。
機械学習モデルの一般化能力と次元に関するすべての指標との予期せぬ弱い関係を観察する。
- 参考スコア(独自算出の注目度): 0.8057006406834467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning becomes more and more available to the general public,
theoretical questions are turning into pressing practical issues. Possibly, one
of the most relevant concerns is the assessment of our confidence in trusting
machine learning predictions. In many real-world cases, it is of utmost
importance to estimate the capabilities of a machine learning algorithm to
generalize, i.e., to provide accurate predictions on unseen data, depending on
the characteristics of the target problem. In this work, we perform a
meta-analysis of 109 publicly-available classification data sets, modeling
machine learning generalization as a function of a variety of data set
characteristics, ranging from number of samples to intrinsic dimensionality,
from class-wise feature skewness to $F1$ evaluated on test samples falling
outside the convex hull of the training set. Experimental results demonstrate
the relevance of using the concept of the convex hull of the training data in
assessing machine learning generalization, by emphasizing the difference
between interpolated and extrapolated predictions. Besides several predictable
correlations, we observe unexpectedly weak associations between the
generalization ability of machine learning models and all metrics related to
dimensionality, thus challenging the common assumption that the \textit{curse
of dimensionality} might impair generalization in machine learning.
- Abstract(参考訳): 機械学習が一般大衆に普及するにつれ、理論的疑問が現実的な問題へと変化しつつある。
おそらく最も関係のある懸念の1つは、マシンラーニング予測の信頼性を評価することである。
多くの実世界のケースでは、ターゲット問題の特徴に応じて機械学習アルゴリズムの一般化能力、すなわち、見えないデータに対する正確な予測を提供する能力を推定することが最も重要である。
本研究では,109個の公開可能な分類データセットのメタ分析を行い,機械学習の一般化を,サンプル数から固有次元まで,クラスワイドの特徴スクイネスから,トレーニングセットの凸殻外に落下するテストサンプルに対するF1$まで,さまざまなデータセット特性の関数としてモデル化する。
実験結果は,補間予測と外挿予測の違いを強調することで,機械学習の一般化評価において,学習データの凸包の概念を活用できることを示す。
いくつかの予測可能な相関関係の他に、機械学習モデルの一般化能力と次元に関するすべての指標との予期せぬ弱い相関関係を観察し、機械学習における一般化を損なう可能性があるという一般的な仮定に挑戦する。
関連論文リスト
- Fair Mixed Effects Support Vector Machine [0.0]
機械学習の公正性は、トレーニングデータに存在するバイアスを緩和し、不完全性をモデル化することを目的としている。
これは、モデルが民族性や性的指向といった繊細な特徴に基づいて決定するのを防ぐことで達成される。
両問題を同時に処理できるベクターマシンアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-10T12:25:06Z) - Machine Learning vs Deep Learning: The Generalization Problem [0.0]
本研究では,従来の機械学習(ML)モデルとディープラーニング(DL)アルゴリズムの比較能力について,外挿の観点から検討した。
本稿では,MLモデルとDLモデルの両方が指数関数で学習され,学習領域外の値でテストされる経験的分析を提案する。
その結果,ディープラーニングモデルには,学習範囲を超えて一般化する固有の能力があることが示唆された。
論文 参考訳(メタデータ) (2024-03-03T21:42:55Z) - Understanding Generalization of Federated Learning via Stability:
Heterogeneity Matters [1.4502611532302039]
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
論文 参考訳(メタデータ) (2023-06-06T16:12:35Z) - Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。
その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:50:44Z) - Matched Machine Learning: A Generalized Framework for Treatment Effect
Inference With Learned Metrics [87.05961347040237]
我々は、機械学習ブラックボックスの柔軟性とマッチングの解釈可能性を組み合わせたフレームワークであるMatched Machine Learningを紹介する。
我々のフレームワークは機械学習を用いて、一致した単位を学習し、結果を推定する最適な指標を学習する。
一致機械学習のインスタンスはブラックボックスの機械学習手法と同等に動作し、類似した問題に対する既存のマッチング手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-04-03T19:32:30Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Discriminative, Generative and Self-Supervised Approaches for
Target-Agnostic Learning [8.666667951130892]
生成的および自己教師型学習モデルは、そのタスクでうまく機能することが示されている。
擬似相似理論の導出した定理は、結合分布モデルの推定に関係があることも示している。
論文 参考訳(メタデータ) (2020-11-12T15:03:40Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。