Fugu-MT 論文翻訳(概要): The Effect of Balancing Methods on Model Behavior in Imbalanced Classification Problems

論文の概要: The Effect of Balancing Methods on Model Behavior in Imbalanced Classification Problems

arxiv url: http://arxiv.org/abs/2307.00157v1
Date: Fri, 30 Jun 2023 22:25:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 17:41:27.884723
Title: The Effect of Balancing Methods on Model Behavior in Imbalanced Classification Problems
Title（参考訳）: 不均衡分類問題におけるモデル挙動に及ぼすバランシング法の影響
Authors: Adrian Stando, Mustafa Cavus, Przemys{\l}aw Biecek
Abstract要約: 不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
参考スコア（独自算出の注目度）: 4.370097023410272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imbalanced data poses a significant challenge in classification as model performance is affected by insufficient learning from minority classes. Balancing methods are often used to address this problem. However, such techniques can lead to problems such as overfitting or loss of information. This study addresses a more challenging aspect of balancing methods - their impact on model behavior. To capture these changes, Explainable Artificial Intelligence tools are used to compare models trained on datasets before and after balancing. In addition to the variable importance method, this study uses the partial dependence profile and accumulated local effects techniques. Real and simulated datasets are tested, and an open-source Python package edgaro is developed to facilitate this analysis. The results obtained show significant changes in model behavior due to balancing methods, which can lead to biased models toward a balanced distribution. These findings confirm that balancing analysis should go beyond model performance comparisons to achieve higher reliability of machine learning models. Therefore, we propose a new method performance gain plot for informed data balancing strategy to make an optimal selection of balancing method by analyzing the measure of change in model behavior versus performance gain.
Abstract（参考訳）: 不均衡データは、マイノリティクラスからの学習不足によってモデルの性能が影響を受けるため、分類において重大な課題となる。この問題に対処するために、バランシング手法がよく使用される。しかし、そのような技術は情報の過剰なフィッティングや損失といった問題を引き起こす可能性がある。この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。これらの変化を捉えるために、説明可能な人工知能ツールを使用して、バランスをとる前後にデータセットでトレーニングされたモデルを比較する。本研究は,変数重要度法に加えて,部分的依存プロファイルと局所効果の蓄積手法を用いた。実際のデータセットとシミュレーションデータセットがテストされ、この分析を容易にするためにオープンソースのPythonパッケージedgaroが開発されている。その結果, バランスの取れた分布に偏ったモデルが導かれるため, モデル挙動に大きな変化が見られた。これらの結果は、機械学習モデルの信頼性を高めるために、バランシング分析がモデル性能比較を超えることを確認する。そこで本研究では,データバランシング戦略において,モデル行動の変化とパフォーマンスゲインの変化の指標を解析し,バランシング手法の最適選択を行うための新しい手法を提案する。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Rethinking the Bias of Foundation Model under Long-tailed Distribution [18.80942166783087]
下流タスクの基盤モデルで継承される不均衡バイアスはパラメータ不均衡とデータ不均衡である。微調整中、パラメータの不均衡がより重要な役割を果たすのに対し、データ不均衡は既存の再バランス戦略によって緩和される。本稿では,入力サンプルとラベル間の真の因果関係を学習する新しいバックドア調整手法を提案する。
論文参考訳（メタデータ） (2025-01-27T11:00:19Z)
Investigating the Impact of Balancing, Filtering, and Complexity on Predictive Multiplicity: A Data-Centric Perspective [5.524804393257921]
ラショモン効果は、複数のモデルがデータセット上で同様のパフォーマンスを達成するが、異なる予測を生成し、予測的多重性をもたらす。データ中心のAIアプローチは、データ最適化、特に前処理技術による優先順位付けによって、これらの問題を緩和することができる。本稿では,データの複雑さを考慮し,バランスやフィルタリングといったデータ前処理手法が予測多重度やモデルの安定性にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-12-12T20:14:45Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Explainability of Machine Learning Models under Missing Data [2.880748930766428]
データ不足は、モデルの性能と解釈可能性を著しく損なうおそれのある問題である。本稿では, 欠落データ分野の展開を要約し, 種々の計算法がシェープリー値の計算に与える影響について考察する。
論文参考訳（メタデータ） (2024-06-29T11:31:09Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification [0.0]
本稿では,ラショモン効果を用いた予測多重度に及ぼすバランス法の影響について検討する。データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。
論文参考訳（メタデータ） (2024-03-22T13:08:22Z)
Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文参考訳（メタデータ） (2023-07-14T07:01:48Z)
Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文参考訳（メタデータ） (2023-06-03T20:12:27Z)
A prediction and behavioural analysis of machine learning methods for modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文参考訳（メタデータ） (2023-01-11T11:10:32Z)
How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文参考訳（メタデータ） (2022-06-17T16:18:28Z)
Analyzing the Effects of Handling Data Imbalance on Learned Features from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文参考訳（メタデータ） (2022-04-04T09:38:38Z)
Sampling To Improve Predictions For Underrepresented Observations In Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文参考訳（メタデータ） (2021-11-17T12:16:54Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。