論文の概要: Testing for Overfitting
- arxiv url: http://arxiv.org/abs/2305.05792v2
- Date: Mon, 10 Mar 2025 16:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:42.946583
- Title: Testing for Overfitting
- Title(参考訳): オーバーフィッティングのためのテスト
- Authors: James Schmidt,
- Abstract要約: オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High complexity models are notorious in machine learning for overfitting, a phenomenon in which models well represent data but fail to generalize an underlying data generating process. A typical procedure for circumventing overfitting computes empirical risk on a holdout set and halts once (or flags that/when) it begins to increase. Such practice often helps in outputting a well-generalizing model, but justification for why it works is primarily heuristic. We discuss the overfitting problem and explain why standard asymptotic and concentration results do not hold for evaluation with training data. We then proceed to introduce and argue for a hypothesis test by means of which both model performance may be evaluated using training data, and overfitting quantitatively defined and detected. We rely on said concentration bounds which guarantee that empirical means should, with high probability, approximate their true mean to conclude that they should approximate each other. We stipulate conditions under which this test is valid, describe how the test may be used for identifying overfitting, articulate a further nuance according to which distributional shift may be flagged, and highlight an alternative notion of learning which usefully captures generalization in the absence of uniform PAC guarantees.
- Abstract(参考訳): 高複雑性モデルは、モデルがデータを表現するが、基礎となるデータ生成プロセスの一般化に失敗する現象であるオーバーフィッティング(overfitting)の機械学習で悪名高い。
オーバーフィッティングを回避するための典型的な手順は、ホールトアウトセットにおける経験的リスクを回避し、一度(またはその時にフラグを)増加し始める。
このようなプラクティスは、よく一般化されたモデルを出力するのに役立つことが多いが、なぜそれが機能するのかを正当化することは、主にヒューリスティックである。
本稿では, オーバーフィッティング問題について議論し, トレーニングデータを用いた評価において, 標準漸近および集中結果が成立しない理由を説明する。
そこで我々は,モデルの性能をトレーニングデータを用いて評価し,量的定義と検出の過度に適合させることにより,仮説テストの導入と議論を進めた。
我々は、実験的な手段が高い確率でそれらの真の平均を近似し、互いに近似すべきであると結論付けるような濃度境界に依存している。
我々は,このテストが有効である条件を規定し,オーバーフィッティングの同定にこのテストをどのように用いるか,分布シフトのフラグ付けによるさらなるニュアンスを明確にし,均一なPAC保証がない場合の一般化を効果的に捉えた学習の代替概念を強調した。
関連論文リスト
- Demystifying amortized causal discovery with transformers [21.058343547918053]
観測データからの因果発見のための教師付き学習アプローチは、しばしば競争性能を達成する。
本研究では,CSIvAについて検討する。CSIvAは,合成データのトレーニングと実データへの転送を約束するトランスフォーマーモデルである。
既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示します。
論文 参考訳(メタデータ) (2024-05-27T08:17:49Z) - User-defined Event Sampling and Uncertainty Quantification in Diffusion
Models for Physical Dynamical Systems [49.75149094527068]
拡散モデルを用いて予測を行い,カオス力学系に対する不確かさの定量化が可能であることを示す。
本研究では,雑音レベルが低下するにつれて真の分布に収束する条件付きスコア関数の確率的近似法を開発する。
推論時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングした場合でもデータ統計と一致させることができる。
論文 参考訳(メタデータ) (2023-06-13T03:42:03Z) - Intervention Generalization: A View from Factor Graph Models [7.117681268784223]
操作されたシステムの分布の因子化に関する最小限の仮定に基づいて、過去の実験から新しい条件への飛躍をいかに保証するかを詳しく検討する。
仮定された$textitinterventional Factor Model$ (IFM) は必ずしも情報であるとは限らないが、不測のコンバウンディングとフィードバックのメカニズムを明示的にモデル化する必要性を便利に抽象化する。
論文 参考訳(メタデータ) (2023-06-06T21:44:23Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。
境界が0-1経験的リスク最小化に有効であることを証明します。
この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文 参考訳(メタデータ) (2021-05-01T17:05:29Z) - Testing for Typicality with Respect to an Ensemble of Learned
Distributions [5.850572971372637]
適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-11T19:47:46Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。