論文の概要: Rip van Winkle's Razor: A Simple Estimate of Overfit to Test Data
- arxiv url: http://arxiv.org/abs/2102.13189v1
- Date: Thu, 25 Feb 2021 21:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-02 00:47:40.540231
- Title: Rip van Winkle's Razor: A Simple Estimate of Overfit to Test Data
- Title(参考訳): Rip van Winkle氏のRazor: データテストのオーバーフィットの簡易評価
- Authors: Sanjeev Arora, Yi Zhang
- Abstract要約: 伝統的な統計では、テストデータ(a.k.a.)の使用を禁じている。
トレーニング中にデータを保持します。
我々は、簡単な新しい見積もり、 Em Rip van Winkle の Razor を提示する。
これはモデルのtextquotedblleft情報contenttextquotedblrightという新しい概念に依存している。
- 参考スコア(独自算出の注目度): 38.28371181797257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional statistics forbids use of test data (a.k.a. holdout data) during
training. Dwork et al. 2015 pointed out that current practices in machine
learning, whereby researchers build upon each other's models, copying
hyperparameters and even computer code -- amounts to implicitly training on the
test set. Thus error rate on test data may not reflect the true population
error. This observation initiated {\em adaptive data analysis}, which provides
evaluation mechanisms with guaranteed upper bounds on this difference. With
statistical query (i.e. test accuracy) feedbacks, the best upper bound is
fairly pessimistic: the deviation can hit a practically vacuous value if the
number of models tested is quadratic in the size of the test set.
In this work, we present a simple new estimate, {\em Rip van Winkle's Razor}.
It relies upon a new notion of \textquotedblleft information
content\textquotedblright\ of a model: the amount of information that would
have to be provided to an expert referee who is intimately familiar with the
field and relevant science/math, and who has been just been woken up after
falling asleep at the moment of the creation of the test data (like
\textquotedblleft Rip van Winkle\textquotedblright\ of the famous fairy tale).
This notion of information content is used to provide an estimate of the above
deviation which is shown to be non-vacuous in many modern settings.
- Abstract(参考訳): 伝統的な統計では、テストデータ(a.k.a.)の使用を禁じている。
トレーニング中にデータを保持します。
Dwork et al。
2015年、研究者が互いにモデルを構築し、ハイパーパラメーターやコンピュータコードをコピーする機械学習の現在のプラクティスは、テストセット上で暗黙的にトレーニングすることに相当する、と指摘する。
したがって、テストデータのエラー率は真の人口誤差を反映しないかもしれない。
この観測は {\em adaptive data analysis} を開始し、この差の上限が保証された評価機構を提供する。
統計的クエリ(すなわち)で。
テストの精度) フィードバック 最高の上限値はかなり悲観的です: テストされたモデルの数がテストセットのサイズの2乗である場合、偏差は事実上空虚な値に到達します。
この研究では、単純な新しい推定値 {\em Rip van Winkle's Razor} を提示する。
これは、モデルの新しい概念である \textquotedblleft information content\textquotedblright\ に依存している: フィールドと関連する科学/数学に精通し、テストデータの作成時に眠りに落ちたばかりの専門家の審判に提供されなければならない情報の量(例えば、 \textquotedblleft Rip van Winkle\textquotedblright\ 有名なおとぎ話)。
この情報コンテンツの概念は、多くの現代の設定で非空席であることが示されている上記の偏差の推定を提供するために使用されます。
関連論文リスト
- LatestEval: Addressing Data Contamination in Language Model Evaluation
through Dynamic and Time-Sensitive Test Construction [21.553915781660905]
LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。
これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。
実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:16:43Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - The Change that Matters in Discourse Parsing: Estimating the Impact of
Domain Shift on Parser Error [14.566990078034241]
我々は、誤差ギャップに直接結び付けることができる理論的領域適応文献から統計を用いる。
本研究では,6つの談話データセットにおける2400以上の実験の大規模実験を通じて,この統計の偏りを理論的・理論的に誤差ギャップの推定指標として検討した。
論文 参考訳(メタデータ) (2022-03-21T20:04:23Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Monotonicity in practice of adaptive testing [0.0]
本稿では,最近提案された単調性勾配アルゴリズムを用いて学習した適応テストのためのベイジアンネットワークモデルについて検討する。
手法の質は、チェコ国立数学試験の大規模なデータセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-09-15T10:55:41Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。