論文の概要: Beyond Imbalance Ratio: Data Characteristics as Critical Moderators of Oversampling Method Selection
- arxiv url: http://arxiv.org/abs/2604.04541v1
- Date: Mon, 06 Apr 2026 09:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.155304
- Title: Beyond Imbalance Ratio: Data Characteristics as Critical Moderators of Oversampling Method Selection
- Title(参考訳): 不均衡比を超える:オーバーサンプリング手法選択の臨界モデレータとしてのデータ特性
- Authors: Yuwen Jiang, Songyun Ye,
- Abstract要約: 一般的なIR閾値パラダイムは、不均衡比(IR)とオーバーサンプリングの有効性の正の相関を示唆している。
データ特性を一定に保ちながらIRを系統的に操作する制御実験を12回行った。
すべての手法がOpenMLから17の実世界のデータセットで評価された。
- 参考スコア(独自算出の注目度): 1.4266272677701564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The prevailing IR-threshold paradigm posits a positive correlation between imbalance ratio (IR) and oversampling effectiveness, yet this assumption remains empirically unsubstantiated through controlled experimentation. We conducted 12 controlled experiments (N > 100 dataset variants) that systematically manipulated IR while holding data characteristics (class separability, cluster structure) constant via algorithmic generation of Gaussian mixture datasets. Two additional validation experiments examined ceiling effects and metric-dependence. All methods were evaluated on 17 real-world datasets from OpenML. Upon controlling for confounding variables, IR exhibited a weak to moderate negative correlation with oversampling benefits. Class separability emerged as a substantially stronger moderator, accounting for significantly more variance in method effectiveness than IR alone. We propose a 'Context Matters' framework that integrates IR, class separability, and cluster structure to provide evidence-based selection criteria for practitioners.
- Abstract(参考訳): IR-thresholdパラダイムは、不均衡比(IR)とオーバーサンプリングの有効性の正の相関を示唆するが、この仮定は制御実験によって実証的に実証されていない。
我々は、ガウス混合データセットのアルゴリズム生成により、データ特性(クラス分離性、クラスタ構造)を一定に保ちながらIRを系統的に操作する12種類の制御実験(N>100データセット変種)を行った。
さらに2つの検証実験が天井効果とメートル法依存性を調査した。
すべての手法がOpenMLから17の実世界のデータセットで評価された。
共起変数を制御すると、IRはオーバーサンプリングの利点と弱い負の相関を示した。
クラス分離性はかなり強いモデレーターとして出現し、IR単独よりもメソッドの有効性が著しく変化した。
本稿では,IR,クラス分離性,クラスタ構造を統合し,実践者のためのエビデンスベースの選択基準を提供する「コンテキスト事項」フレームワークを提案する。
関連論文リスト
- Explainability of Complex AI Models with Correlation Impact Ratio [10.61008729196936]
複雑なAIシステムはより良い予測を行うが、透明性が欠如し、信頼性、解釈可能性、安全なデプロイメントが制限されることが多い。
ExCIR(Explainability through correlation Impact Ratio)は,モデル出力に対する入力特徴の寄与を説明するための理論的基礎とシンプルで信頼性の高い指標である。
我々は,ExCIRが軽量なシングルパスの定式化により,相関した特徴から生じる依存関係をキャプチャすることを示した。
論文 参考訳(メタデータ) (2026-01-10T21:56:24Z) - Assumption-Lean Post-Integrated Inference with Surrogate Control Outcomes [6.448728765953916]
制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
我々は、予測された直接効果推定に関する半パラメトリック推論を開発し、隠された仲介者、共同設立者、モデレーターを考慮に入れた。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Better May Not Be Fairer: A Study on Subgroup Discrepancy in Image
Classification [73.87160347728314]
CIFAR10とCIFAR100のテストセットを各画像の背景色に基づいてサブグループにアノテートすることで、自然背景色が刺激的な特徴としてどのように機能するかを検討する。
全体としての人間レベルの精度は、一貫したサブグループ性能を保証せず、この現象はImageNetで事前訓練されたモデルやデータ拡張後のモデルでも継続している。
実験の結果,FlowAugはCIFAR10/100およびCIFAR10/100-C上で,他のDA法よりも一貫したサブグループ結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-12-16T18:51:10Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。