論文の概要: Beyond Random Split for Assessing Statistical Model Performance
- arxiv url: http://arxiv.org/abs/2209.03346v1
- Date: Sun, 4 Sep 2022 22:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:30:05.140811
- Title: Beyond Random Split for Assessing Statistical Model Performance
- Title(参考訳): 統計的モデル性能評価のためのランダムスプリット
- Authors: Carlos Catania and Jorge Guerra and Juan Manuel Romero and Gabriel
Caffaratti and Martin Marchetta
- Abstract要約: 予測器の多様性に基づいて、トレーニングとテストセットを分割する戦略を分析する。
このような戦略は、人口の代表性が最小限に抑えられた珍しい例や珍しい例を取り入れることを保証することを目的としている。
予備的な結果はモンテカルロ分割戦略に3つの代替戦略を適用することの重要性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even though a train/test split of the dataset randomly performed is a common
practice, could not always be the best approach for estimating performance
generalization under some scenarios. The fact is that the usual machine
learning methodology can sometimes overestimate the generalization error when a
dataset is not representative or when rare and elusive examples are a
fundamental aspect of the detection problem. In the present work, we analyze
strategies based on the predictors' variability to split in training and
testing sets. Such strategies aim at guaranteeing the inclusion of rare or
unusual examples with a minimal loss of the population's representativeness and
provide a more accurate estimation about the generalization error when the
dataset is not representative. Two baseline classifiers based on decision trees
were used for testing the four splitting strategies considered. Both
classifiers were applied on CTU19 a low-representative dataset for a network
security detection problem. Preliminary results showed the importance of
applying the three alternative strategies to the Monte Carlo splitting strategy
in order to get a more accurate error estimation on different but feasible
scenarios.
- Abstract(参考訳): ランダムに実行されたデータセットのトレイン/テスト分割は一般的なプラクティスだが、いくつかのシナリオでパフォーマンスの一般化を推定する最善のアプローチであるとは限らない。
実際、通常の機械学習手法は、データセットが代表的でない場合や、稀でわかりやすい例が検出問題の根本的な側面である場合、一般化誤差を過大評価することがある。
本研究では,予測者のトレーニングとテストセットの分割可能性に基づいて,戦略を分析する。
このような戦略は、人口の代表性を最小にし、珍しい例や珍しい例を含めることを保証することを目的としており、データセットが代表的でない場合の一般化誤差をより正確に見積もる。
決定木に基づく2つのベースライン分類器を用いて検討した4つの分割戦略を検証した。
両分類器はネットワークセキュリティ検出問題の低表現データセットctu19に適用された。
予備的な結果は,モンテカルロ分割戦略に3つの代替戦略を適用することの重要性を示した。
関連論文リスト
- Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Prediction-powered Generalization of Causal Inferences [6.43357871718189]
実験の規模が限られていることが,一般化を統計的に実現不可能な課題にしていることを示す。
我々は、さらなる観察研究から得られた予測モデルを用いて、試行データを補う一般化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-06-05T02:44:14Z) - Restoring balance: principled under/oversampling of data for optimal classification [0.0]
実世界のデータのクラス不均衡は、機械学習タスクに共通のボトルネックをもたらす。
データのアンダーやオーバーサンプリングといった緩和戦略は、定期的に提案され、実証的にテストされる。
我々は、クラス不均衡、データの第1、第2モーメント、考慮されたパフォーマンスの指標に依存するアンダー/オーバーサンプリング戦略の効果を鋭く予測する。
論文 参考訳(メタデータ) (2024-05-15T17:45:34Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - A Statistical Model for Predicting Generalization in Few-Shot
Classification [6.158812834002346]
一般化誤差を予測するために,特徴分布のガウスモデルを導入する。
提案手法は, 相互検証戦略の離脱など, 代替案よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-13T10:21:15Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。
特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。
次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文 参考訳(メタデータ) (2021-08-06T05:20:46Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。