論文の概要: The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems
- arxiv url: http://arxiv.org/abs/2307.00157v1
- Date: Fri, 30 Jun 2023 22:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:41:27.884723
- Title: The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems
- Title(参考訳): 不均衡分類問題におけるモデル挙動に及ぼすバランシング法の影響
- Authors: Adrian Stando, Mustafa Cavus, Przemys{\l}aw Biecek
- Abstract要約: 不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
- 参考スコア(独自算出の注目度): 4.370097023410272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data poses a significant challenge in classification as model
performance is affected by insufficient learning from minority classes.
Balancing methods are often used to address this problem. However, such
techniques can lead to problems such as overfitting or loss of information.
This study addresses a more challenging aspect of balancing methods - their
impact on model behavior. To capture these changes, Explainable Artificial
Intelligence tools are used to compare models trained on datasets before and
after balancing. In addition to the variable importance method, this study uses
the partial dependence profile and accumulated local effects techniques. Real
and simulated datasets are tested, and an open-source Python package edgaro is
developed to facilitate this analysis. The results obtained show significant
changes in model behavior due to balancing methods, which can lead to biased
models toward a balanced distribution. These findings confirm that balancing
analysis should go beyond model performance comparisons to achieve higher
reliability of machine learning models. Therefore, we propose a new method
performance gain plot for informed data balancing strategy to make an optimal
selection of balancing method by analyzing the measure of change in model
behavior versus performance gain.
- Abstract(参考訳): 不均衡データは、マイノリティクラスからの学習不足によってモデルの性能が影響を受けるため、分類において重大な課題となる。
この問題に対処するために、バランシング手法がよく使用される。
しかし、そのような技術は情報の過剰なフィッティングや損失といった問題を引き起こす可能性がある。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールを使用して、バランスをとる前後にデータセットでトレーニングされたモデルを比較する。
本研究は,変数重要度法に加えて,部分的依存プロファイルと局所効果の蓄積手法を用いた。
実際のデータセットとシミュレーションデータセットがテストされ、この分析を容易にするためにオープンソースのPythonパッケージedgaroが開発されている。
その結果, バランスの取れた分布に偏ったモデルが導かれるため, モデル挙動に大きな変化が見られた。
これらの結果は、機械学習モデルの信頼性を高めるために、バランシング分析がモデル性能比較を超えることを確認する。
そこで本研究では,データバランシング戦略において,モデル行動の変化とパフォーマンスゲインの変化の指標を解析し,バランシング手法の最適選択を行うための新しい手法を提案する。
関連論文リスト
- Orthogonal Uncertainty Representation of Data Manifold for Robust
Long-Tailed Learning [52.021899899683675]
長い尾の分布を持つシナリオでは、尾のサンプルが不足しているため、モデルが尾のクラスを識別する能力は制限される。
モデルロバストネスの長期的現象を改善するために,特徴埋め込みの直交不確実性表現(OUR)とエンドツーエンドのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-16T05:50:34Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文 参考訳(メタデータ) (2021-11-17T12:16:54Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Reinforcement Learning based dynamic weighing of Ensemble Models for
Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。
アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。
この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文 参考訳(メタデータ) (2020-08-20T10:40:42Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。