Fugu-MT 論文翻訳(概要): Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of Flaws and Benefits when Applying Over-sampling

論文の概要: Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of Flaws and Benefits when Applying Over-sampling

arxiv url: http://arxiv.org/abs/2001.06296v2
Date: Sat, 28 Nov 2020 16:41:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 06:13:52.428749
Title: Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of Flaws and Benefits when Applying Over-sampling
Title（参考訳）: 不均衡データの過度最適予測結果:過剰サンプリング適用時の欠陥と便益を事例として
Authors: Gilles Vandewiele, Isabelle Dehaene, Gy\"orgy Kov\'acs, Lucas Sterckx, Olivier Janssens, Femke Ongenae, Femke De Backere, Filip De Turck, Kristien Roelens, Johan Decruyenaere, Sofie Van Hoecke, Thomas Demeester
Abstract要約: データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
参考スコア（独自算出の注目度）: 13.463035357173045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Information extracted from electrohysterography recordings could potentially prove to be an interesting additional source of information to estimate the risk on preterm birth. Recently, a large number of studies have reported near-perfect results to distinguish between recordings of patients that will deliver term or preterm using a public resource, called the Term/Preterm Electrohysterogram database. However, we argue that these results are overly optimistic due to a methodological flaw being made. In this work, we focus on one specific type of methodological flaw: applying over-sampling before partitioning the data into mutually exclusive training and testing sets. We show how this causes the results to be biased using two artificial datasets and reproduce results of studies in which this flaw was identified. Moreover, we evaluate the actual impact of over-sampling on predictive performance, when applied prior to data partitioning, using the same methodologies of related studies, to provide a realistic view of these methodologies' generalization capabilities. We make our research reproducible by providing all the code under an open license.
Abstract（参考訳）: エレクトロヒステログラフィー記録から抽出された情報は、早産リスクを推定するための興味深い追加情報源となる可能性がある。近年、多くの研究が、用語/初期ヒステグラムデータベース (term/preterm electrohysterogram database) と呼ばれる公的資源を用いて、長期または長期の患者の記録を区別するほぼ完全な結果を報告している。しかし,本研究の結果は方法論的欠陥が生じたため,非常に楽観的であった。本研究では,データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する,特定の方法論的欠陥に着目する。この結果が2つの人工データセットを用いて偏りを生じさせ、この欠陥が特定された研究の結果を再現する。さらに,データ分割に先立って適用されたオーバーサンプリングが実際の予測性能に与える影響を,関連研究と同じ手法を用いて評価し,これらの手法の一般化能力の現実的なビューを提供する。オープンライセンスですべてのコードを提供することで、研究を再現できます。

関連論文リスト

Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
Active Data Sampling and Generation for Bias Remediation [0.0]
トレーニング済みのクラスを微調整する際、不公平な分類を補うために、サンプリングとデータ生成の混合戦略が提案されている。視覚的セマンティック・ロール・ラベリングのためのDeep Modelsのケーススタディとして、提案手法は90/10の不均衡から始まるシミュレートされたジェンダーバイアスを完全に解決することができる。
論文参考訳（メタデータ） (2025-03-26T10:42:15Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
A step towards the integration of machine learning and small area estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文参考訳（メタデータ） (2024-02-12T09:43:17Z)
Approximating Counterfactual Bounds while Fusing Observational, Biased and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。利用可能なデータの可能性は局所的な最大値を持たないことを示す。次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文参考訳（メタデータ） (2023-07-31T11:28:24Z)
Towards Assessing Data Bias in Clinical Trials [0.0]
医療データセットはデータバイアスの影響を受けます。データバイアスは現実の歪んだ見方を与え、誤った分析結果をもたらし、結果として決定を下す。 i)データセットに存在する可能性のあるデータバイアスの種類を定義し、(ii)適切なメトリクスでデータバイアスを特徴付け、定量化し、(iii)異なるデータソースに対してデータバイアスを特定し、測定し、緩和するためのガイドラインを提供する。
論文参考訳（メタデータ） (2022-12-19T17:10:06Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文参考訳（メタデータ） (2022-02-09T00:21:22Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文参考訳（メタデータ） (2020-12-17T21:10:10Z)
Do We Really Sample Right In Model-Based Diagnosis? [0.0]
本研究は, 断層説明に関する推定値を用いて, 生成したサンプルの表現性について検討する。サンプルサイズ, サンプリング効率と効果率の最適トレードオフについて検討した。
論文参考訳（メタデータ） (2020-09-25T12:30:14Z)
Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文参考訳（メタデータ） (2020-07-24T06:54:57Z)
Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文参考訳（メタデータ） (2020-06-14T01:15:00Z)
Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2020-06-08T07:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。