論文の概要: We Need to Talk About Random Splits
- arxiv url: http://arxiv.org/abs/2005.00636v3
- Date: Mon, 26 Apr 2021 12:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:00:42.002754
- Title: We Need to Talk About Random Splits
- Title(参考訳): ランダムスプリットについて話す必要がある
- Authors: Anders S{\o}gaard and Sebastian Ebert and Jasmijn Bastings and Katja
Filippova
- Abstract要約: ゴーマンとベドリックは、NLP実験において標準的な分割ではなくランダム分割を使うことを主張した。
標準的な分割のようにランダムな分割は、過度に楽観的なパフォーマンス推定につながると我々は主張する。
- 参考スコア(独自算出の注目度): 3.236124102160291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gorman and Bedrick (2019) argued for using random splits rather than standard
splits in NLP experiments. We argue that random splits, like standard splits,
lead to overly optimistic performance estimates. We can also split data in
biased or adversarial ways, e.g., training on short sentences and evaluating on
long ones. Biased sampling has been used in domain adaptation to simulate
real-world drift; this is known as the covariate shift assumption. In NLP,
however, even worst-case splits, maximizing bias, often under-estimate the
error observed on new samples of in-domain data, i.e., the data that models
should minimally generalize to at test time. This invalidates the covariate
shift assumption. Instead of using multiple random splits, future benchmarks
should ideally include multiple, independent test sets instead; if infeasible,
we argue that multiple biased splits leads to more realistic performance
estimates than multiple random splits.
- Abstract(参考訳): gorman and bedrick (2019) は nlp 実験で標準分割ではなくランダム分割を使うと主張した。
標準的な分割のようにランダムな分割は、過度に楽観的なパフォーマンス推定につながると我々は主張する。
また、短文のトレーニングや長文の評価など、偏りのある、あるいは逆の方法でデータを分割することも可能です。
バイアスサンプリングは、現実世界のドリフトをシミュレートする領域適応において使われており、これは共変量シフト仮定として知られている。
しかし、NLPでは、最悪の場合でさえ、バイアスを最大化し、しばしばドメイン内の新しいサンプル、すなわちモデルがテスト時に最小限に一般化すべきデータで観測されるエラーを過小評価する。
これは共変シフトの仮定を無効にする。
複数のランダム分割を使用する代わりに、将来のベンチマークでは、理想的には複数の独立したテストセットを含めるべきである。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - It's about Time: Rethinking Evaluation on Rumor Detection Benchmarks
using Chronological Splits [27.061515030101972]
ランダムスプリットの代わりに時系列を考慮した4つの一般的な噂検出ベンチマークにおいて,分類モデルの再評価を行う。
実験の結果,ランダムスプリットを用いることで,すべてのデータセットやモデルに対して予測性能を大幅に過大評価できることがわかった。
局所的な重複を最小限に抑えるために,時系列分割を用いて常に噂検出モデルを評価すべきである。
論文 参考訳(メタデータ) (2023-02-06T22:53:13Z) - Benchmarking Long-tail Generalization with Likelihood Splits [20.47194488430863]
本稿では,既存のデータセットを再分割することで,分布の尾に一般化する必要のある,挑戦的なベンチマークを作成する手法を提案する。
事前訓練された言語モデルによって低い確率で割り当てられた例をテストセットに配置し、よりありそうな例をトレーニングセットに配置する「Likelihood Splits」を作成します。
論文 参考訳(メタデータ) (2022-10-13T07:27:14Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Learning to Split for Automatic Bias Detection [39.353850990332525]
Learning to Split (ls)は自動バイアス検出のためのアルゴリズムである。
我々は,Beer Review,CelebA,MNLIに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-04-28T19:41:08Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。