論文の概要: The Generalization Error of Machine Learning Algorithms
- arxiv url: http://arxiv.org/abs/2411.12030v1
- Date: Mon, 18 Nov 2024 20:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:19.054984
- Title: The Generalization Error of Machine Learning Algorithms
- Title(参考訳): 機械学習アルゴリズムの一般化誤差
- Authors: Samir M. Perlaza, Xinying Zou,
- Abstract要約: 差分法は,機械学習アルゴリズムの一般化誤差に対する情報量の観点から,閉形式式を導出する手法である。
提案手法により,機械学習アルゴリズムの一般化誤差に対する既存の正確な表現が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, the method of gaps, a technique for deriving closed-form expressions in terms of information measures for the generalization error of machine learning algorithms is introduced. The method relies on two central observations: $(a)$~The generalization error is an average of the variation of the expected empirical risk with respect to changes on the probability measure (used for expectation); and~$(b)$~these variations, also referred to as gaps, exhibit closed-form expressions in terms of information measures. The expectation of the empirical risk can be either with respect to a measure on the models (with a fixed dataset) or with respect to a measure on the datasets (with a fixed model), which results in two variants of the method of gaps. The first variant, which focuses on the gaps of the expected empirical risk with respect to a measure on the models, appears to be the most general, as no assumptions are made on the distribution of the datasets. The second variant develops under the assumption that datasets are made of independent and identically distributed data points. All existing exact expressions for the generalization error of machine learning algorithms can be obtained with the proposed method. Also, this method allows obtaining numerous new exact expressions, which improves the understanding of the generalization error; establish connections with other areas in statistics, e.g., hypothesis testing; and potentially, might guide algorithm designs.
- Abstract(参考訳): 本稿では,機械学習アルゴリズムの一般化誤差に対する情報量の観点から閉形式表現を導出する手法であるギャップ法について述べる。
この方法は2つの中心的な観測に依存している。
(a)$~ 一般化誤差は、(予想に使用される)確率測度の変化に関して期待される経験的リスクの変動の平均である。
(b)$~これらの変分(ギャップとも呼ばれる)は、情報測度の観点から閉形式表現を示す。
経験的リスクの期待は、モデル上の測度(固定されたデータセットを含む)、またはデータセット上の測度(固定されたモデルを含む)のいずれかであり、それによってギャップの方法の2つの変種が生じる。
最初の変種は、モデル上の測度に関して期待される経験的リスクのギャップに焦点を当てており、データセットの分布に関する仮定が存在しないため、最も一般的なものと思われる。
第2の変種は、データセットが独立で同一の分散データポイントで構成されているという仮定のもとに発展する。
提案手法により,機械学習アルゴリズムの一般化誤差に対する既存の正確な表現が得られる。
また、この方法では、一般化誤差の理解を改善し、統計学の他の分野(例えば仮説テスト)との接続を確立するなど、多くの新しい正確な式を得ることができ、潜在的にアルゴリズム設計を導くことができる。
関連論文リスト
- Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Generalization Analysis of Machine Learning Algorithms via the
Worst-Case Data-Generating Probability Measure [1.773764539873123]
データに対する最悪の確率測定は、機械学習アルゴリズムの一般化能力を特徴づけるツールとして紹介される。
予測損失の感度、経験的リスクの感度、一般化ギャップなどの基本的な一般化指標は、クローズドフォーム表現を持つことが示されている。
最悪のデータ生成確率尺度とギブスアルゴリズムとの間には,新たな並列性が確立されている。
論文 参考訳(メタデータ) (2023-12-19T15:20:27Z) - Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Domain Conditional Predictors for Domain Adaptation [3.951376400628575]
本稿では,入力データに依存することに加えて,基礎となるデータ生成分布に対する情報を利用する条件付きモデリング手法を検討する。
このようなアプローチは、現在のドメイン適応手法よりも一般的に適用可能であると論じる。
論文 参考訳(メタデータ) (2021-06-25T22:15:54Z) - Parsimonious Feature Extraction Methods: Extending Robust Probabilistic
Projections with Generalized Skew-t [0.8336315962271392]
本稿では,学生の確率的主成分法に新たな一般化を提案する。
この新しいフレームワークは、観測データにおける端尾依存性の群をモデル化するための、より柔軟なアプローチを提供する。
新しいフレームワークの適用性は、最も高い市場資本を持つ暗号通貨からなるデータセットに説明されている。
論文 参考訳(メタデータ) (2020-09-24T05:53:41Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。