論文の概要: Classification Imbalance as Transfer Learning
- arxiv url: http://arxiv.org/abs/2601.10630v1
- Date: Thu, 15 Jan 2026 17:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.250848
- Title: Classification Imbalance as Transfer Learning
- Title(参考訳): トランスファーラーニングとしての分類不均衡
- Authors: Eric Xia, Jason M. Klusowski,
- Abstract要約: 本研究では,少数層分布の推定値から合成サンプルを生成することで,トレーニングデータを増強するオーバーサンプリング手順のファミリーについて検討する。
過大なリスクは、バランスの取れたトレーニングで達成可能なレートに分解されることを示す。
- 参考スコア(独自算出の注目度): 11.659383493623565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification imbalance arises when one class is much rarer than the other. We frame this setting as transfer learning under label (prior) shift between an imbalanced source distribution induced by the observed data and a balanced target distribution under which performance is evaluated. Within this framework, we study a family of oversampling procedures that augment the training data by generating synthetic samples from an estimated minority-class distribution to roughly balance the classes, among which the celebrated SMOTE algorithm is a canonical example. We show that the excess risk decomposes into the rate achievable under balanced training (as if the data had been drawn from the balanced target distribution) and an additional term, the cost of transfer, which quantifies the discrepancy between the estimated and true minority-class distributions. In particular, we show that the cost of transfer for SMOTE dominates that of bootstrapping (random oversampling) in moderately high dimensions, suggesting that we should expect bootstrapping to have better performance than SMOTE in general. We corroborate these findings with experimental evidence. More broadly, our results provide guidance for choosing among augmentation strategies for imbalanced classification.
- Abstract(参考訳): 分類の不均衡は、一方のクラスが他方よりも稀に発生する。
この設定は、観測データによって誘導される不均衡なソース分布と、性能を評価するためのバランスの取れたターゲット分布とのラベル(優先)シフトの下での転送学習である。
本枠組みでは, 推定マイノリティクラス分布から合成サンプルを生成してトレーニングデータを増強するオーバーサンプリング手法群について検討し, SMOTEアルゴリズムが典型例であるクラスを大まかにバランスさせる。
過大なリスクは、バランスの取れたトレーニングで達成可能な速度(バランスの取れた目標分布からデータが引き出されたように)と、推定されたマイノリティ階級分布と真のマイノリティ階級分布との相違を定量化する転送コストに分解されることが示される。
特に,SMOTEの転送コストが,ブートストラップ(ランダムオーバーサンプリング)を適度に高次元で支配することから,ブートストラップがSMOTEよりも高い性能を期待できることが示唆された。
これらの知見を実験的に裏付ける。
より広範に、不均衡な分類のための拡張戦略を選択するためのガイダンスを提供する。
関連論文リスト
- Rebalancing with Calibrated Sub-classes (RCS): A Statistical Fusion-based Framework for Robust Imbalanced Classification across Modalities [16.993547305381327]
Rebalancing with Calibrated Sub-classes (RCS)は、ロバストな不均衡な分類のための新しい分散キャリブレーションフレームワークである。
RCSはガウス成分の加重混合により、多数および中間クラスの分布から統計情報を融合する。
論文 参考訳(メタデータ) (2025-10-10T00:06:13Z) - Class-Conditional Distribution Balancing for Group Robust Classification [11.525201208566925]
間違った理由からモデルが正しい予測に導かれるような豪華な相関関係は、堅牢な現実世界の一般化にとって重要な課題である。
クラス-条件分布における不均衡やミスマッチとして、突発的な相関を緩和することで、新しい視点を提供する。
本稿では,バイアスアノテーションと予測の両方を必要としない,シンプルで効果的な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-24T07:15:53Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Transfer and Share: Semi-Supervised Learning from Long-Tailed Data [27.88381366842497]
本稿では、TRAS(TRAnsfer and Share)を用いて、長い尾を持つ半教師付きデータを効果的に活用する。
TRASは従来のSSLモデルの不均衡な擬似ラベル分布を変換する。
その後、マイノリティクラスが大きな注目を集めるように、分布をターゲットモデルに転送する。
論文 参考訳(メタデータ) (2022-05-26T13:37:59Z) - An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification [4.506770920842088]
本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
論文 参考訳(メタデータ) (2021-09-01T06:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。