論文の概要: Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data
- arxiv url: http://arxiv.org/abs/2111.09065v1
- Date: Wed, 17 Nov 2021 12:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 18:32:53.801881
- Title: Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data
- Title(参考訳): 不均衡データにおける不規則な観測の予測を改善するサンプリング
- Authors: Rune D. Kj{\ae}rsgaard, Manja G. Gr{\o}nberg, Line K. H. Clemmensen
- Abstract要約: データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data imbalance is common in production data, where controlled production
settings require data to fall within a narrow range of variation and data are
collected with quality assessment in mind, rather than data analytic insights.
This imbalance negatively impacts the predictive performance of models on
underrepresented observations. We propose sampling to adjust for this imbalance
with the goal of improving the performance of models trained on historical
production data. We investigate the use of three sampling approaches to adjust
for imbalance. The goal is to downsample the covariates in the training data
and subsequently fit a regression model. We investigate how the predictive
power of the model changes when using either the sampled or the original data
for training. We apply our methods on a large biopharmaceutical manufacturing
data set from an advanced simulation of penicillin production and find that
fitting a model using the sampled data gives a small reduction in the overall
predictive performance, but yields a systematically better performance on
underrepresented observations. In addition, the results emphasize the need for
alternative, fair, and balanced model evaluations.
- Abstract(参考訳): データの不均衡はプロダクションデータにおいて一般的であり、管理されたプロダクション設定では、データ分析の洞察ではなく品質評価を念頭に置いたデータ収集が必要となる。
この不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
そこで本研究では,過去の生産データに基づくモデルの性能向上を目標として,この不均衡を解消するためのサンプリングを提案する。
不均衡に適応するための3つのサンプリング手法について検討する。
目標はトレーニングデータのコ変数をダウンサンプルし、その後回帰モデルに適合させることだ。
本研究は,サンプルデータとオリジナルデータを用いて,モデルの予測能力がどのように変化するかを検討する。
本手法は,ペニシリン生産の高度シミュレーションから得られた大規模バイオ医薬品製造データに適用し,サンプルデータを用いてモデルに適合させることで予測性能が小さくなるが,低表示の観察で体系的に優れた性能が得られることを見出した。
さらに、結果は、代替、公正、バランスの取れたモデル評価の必要性を強調している。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems [4.370097023410272]
不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
論文 参考訳(メタデータ) (2023-06-30T22:25:01Z) - Evaluating the Utility of GAN Generated Synthetic Tabular Data for Class
Balancing and Low Resource Settings [0.0]
この研究はクラスバランス実験に一般化線形モデル(GLM)アルゴリズムを用いた。
低リソース実験では、GAN合成データで強化されたデータに基づいてトレーニングされたモデルは、元のデータよりも優れたリコール値を示した。
論文 参考訳(メタデータ) (2023-06-24T10:27:08Z) - Training Data Attribution for Diffusion Models [1.1733780065300188]
そこで本研究では,アンサンブルを用いて学習データが拡散モデルの出力にどのように影響するかを明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
論文 参考訳(メタデータ) (2023-06-03T18:36:12Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect
Estimation [28.408998847597882]
因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。
機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果が観察されないため、クロスバリデーションの完全な類似は存在しない。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Symbolic Regression Driven by Training Data and Prior Knowledge [0.0]
シンボリック回帰では、分析モデルの探索は、トレーニングデータサンプルで観測された予測誤差によって純粋に駆動される。
本稿では、学習データと所望のモデルが示す特性の事前知識の両方によって駆動される多目的的シンボリック回帰手法を提案する。
論文 参考訳(メタデータ) (2020-04-24T19:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。