論文の概要: Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling
- arxiv url: http://arxiv.org/abs/2001.06296v2
- Date: Sat, 28 Nov 2020 16:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:13:52.428749
- Title: Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling
- Title(参考訳): 不均衡データの過度最適予測結果:過剰サンプリング適用時の欠陥と便益を事例として
- Authors: Gilles Vandewiele, Isabelle Dehaene, Gy\"orgy Kov\'acs, Lucas Sterckx,
Olivier Janssens, Femke Ongenae, Femke De Backere, Filip De Turck, Kristien
Roelens, Johan Decruyenaere, Sofie Van Hoecke, Thomas Demeester
- Abstract要約: データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。
この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
- 参考スコア(独自算出の注目度): 13.463035357173045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extracted from electrohysterography recordings could potentially
prove to be an interesting additional source of information to estimate the
risk on preterm birth. Recently, a large number of studies have reported
near-perfect results to distinguish between recordings of patients that will
deliver term or preterm using a public resource, called the Term/Preterm
Electrohysterogram database. However, we argue that these results are overly
optimistic due to a methodological flaw being made. In this work, we focus on
one specific type of methodological flaw: applying over-sampling before
partitioning the data into mutually exclusive training and testing sets. We
show how this causes the results to be biased using two artificial datasets and
reproduce results of studies in which this flaw was identified. Moreover, we
evaluate the actual impact of over-sampling on predictive performance, when
applied prior to data partitioning, using the same methodologies of related
studies, to provide a realistic view of these methodologies' generalization
capabilities. We make our research reproducible by providing all the code under
an open license.
- Abstract(参考訳): エレクトロヒステログラフィー記録から抽出された情報は、早産リスクを推定するための興味深い追加情報源となる可能性がある。
近年、多くの研究が、用語/初期ヒステグラムデータベース (term/preterm electrohysterogram database) と呼ばれる公的資源を用いて、長期または長期の患者の記録を区別するほぼ完全な結果を報告している。
しかし,本研究の結果は方法論的欠陥が生じたため,非常に楽観的であった。
本研究では,データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する,特定の方法論的欠陥に着目する。
この結果が2つの人工データセットを用いて偏りを生じさせ、この欠陥が特定された研究の結果を再現する。
さらに,データ分割に先立って適用されたオーバーサンプリングが実際の予測性能に与える影響を,関連研究と同じ手法を用いて評価し,これらの手法の一般化能力の現実的なビューを提供する。
オープンライセンスですべてのコードを提供することで、研究を再現できます。
関連論文リスト
- On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations [10.931620604044486]
ログ異常検出モデルのトレーニングに一般的に使用される公開データのクラス不均衡。
データ再サンプリングによるクラス不均衡の緩和は、他のソフトウェアエンジニアリングタスクに有効であることが証明された。
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-06T14:01:05Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Towards Assessing Data Bias in Clinical Trials [0.0]
医療データセットはデータバイアスの影響を受けます。
データバイアスは現実の歪んだ見方を与え、誤った分析結果をもたらし、結果として決定を下す。
i)データセットに存在する可能性のあるデータバイアスの種類を定義し、(ii)適切なメトリクスでデータバイアスを特徴付け、定量化し、(iii)異なるデータソースに対してデータバイアスを特定し、測定し、緩和するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-19T17:10:06Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Do We Really Sample Right In Model-Based Diagnosis? [0.0]
本研究は, 断層説明に関する推定値を用いて, 生成したサンプルの表現性について検討する。
サンプルサイズ, サンプリング効率と効果率の最適トレードオフについて検討した。
論文 参考訳(メタデータ) (2020-09-25T12:30:14Z) - Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。
トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文 参考訳(メタデータ) (2020-07-24T06:54:57Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。