論文の概要: The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems
- arxiv url: http://arxiv.org/abs/2307.00157v1
- Date: Fri, 30 Jun 2023 22:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:41:27.884723
- Title: The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems
- Title(参考訳): 不均衡分類問題におけるモデル挙動に及ぼすバランシング法の影響
- Authors: Adrian Stando, Mustafa Cavus, Przemys{\l}aw Biecek
- Abstract要約: 不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
- 参考スコア(独自算出の注目度): 4.370097023410272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data poses a significant challenge in classification as model
performance is affected by insufficient learning from minority classes.
Balancing methods are often used to address this problem. However, such
techniques can lead to problems such as overfitting or loss of information.
This study addresses a more challenging aspect of balancing methods - their
impact on model behavior. To capture these changes, Explainable Artificial
Intelligence tools are used to compare models trained on datasets before and
after balancing. In addition to the variable importance method, this study uses
the partial dependence profile and accumulated local effects techniques. Real
and simulated datasets are tested, and an open-source Python package edgaro is
developed to facilitate this analysis. The results obtained show significant
changes in model behavior due to balancing methods, which can lead to biased
models toward a balanced distribution. These findings confirm that balancing
analysis should go beyond model performance comparisons to achieve higher
reliability of machine learning models. Therefore, we propose a new method
performance gain plot for informed data balancing strategy to make an optimal
selection of balancing method by analyzing the measure of change in model
behavior versus performance gain.
- Abstract(参考訳): 不均衡データは、マイノリティクラスからの学習不足によってモデルの性能が影響を受けるため、分類において重大な課題となる。
この問題に対処するために、バランシング手法がよく使用される。
しかし、そのような技術は情報の過剰なフィッティングや損失といった問題を引き起こす可能性がある。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールを使用して、バランスをとる前後にデータセットでトレーニングされたモデルを比較する。
本研究は,変数重要度法に加えて,部分的依存プロファイルと局所効果の蓄積手法を用いた。
実際のデータセットとシミュレーションデータセットがテストされ、この分析を容易にするためにオープンソースのPythonパッケージedgaroが開発されている。
その結果, バランスの取れた分布に偏ったモデルが導かれるため, モデル挙動に大きな変化が見られた。
これらの結果は、機械学習モデルの信頼性を高めるために、バランシング分析がモデル性能比較を超えることを確認する。
そこで本研究では,データバランシング戦略において,モデル行動の変化とパフォーマンスゲインの変化の指標を解析し,バランシング手法の最適選択を行うための新しい手法を提案する。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Explainability of Machine Learning Models under Missing Data [2.880748930766428]
データ不足は、モデルの性能と解釈可能性を著しく損なうおそれのある問題である。
本稿では, 欠落データ分野の展開を要約し, 種々の計算法がシェープリー値の計算に与える影響について考察する。
論文 参考訳(メタデータ) (2024-06-29T11:31:09Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification [0.0]
本稿では,ラショモン効果を用いた予測多重度に及ぼすバランス法の影響について検討する。
データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。
論文 参考訳(メタデータ) (2024-03-22T13:08:22Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文 参考訳(メタデータ) (2021-11-17T12:16:54Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。