論文の概要: Synthetic Augmentation in Imbalanced Learning: When It Helps, When It Hurts, and How Much to Add
- arxiv url: http://arxiv.org/abs/2601.16120v1
- Date: Thu, 22 Jan 2026 17:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.665945
- Title: Synthetic Augmentation in Imbalanced Learning: When It Helps, When It Hurts, and How Much to Add
- Title(参考訳): 不均衡学習における合成強化--いつ助けるか、いつ助けるか、どのくらい加えるべきか
- Authors: Zhengchi Ma, Anru R. Zhang,
- Abstract要約: 不均衡学習における合成強化のための統一統計フレームワークを開発する。
局所対称性」体制では、不均衡はバランスの取れた最適値に近い誤差の主原因ではない。
最適な合成サイズは、ジェネレータの精度と、ジェネレータの残留ミスマッチが固有のマイノリティシフトと方向整合しているかどうかに依存する。
- 参考スコア(独自算出の注目度): 4.735371232176844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imbalanced classification, where one class is observed far less frequently than the other, often causes standard training procedures to prioritize the majority class and perform poorly on rare but important cases. A classic and widely used remedy is to augment the minority class with synthetic examples, but two basic questions remain under-resolved: when does synthetic augmentation actually help, and how many synthetic samples should be generated? We develop a unified statistical framework for synthetic augmentation in imbalanced learning, studying models trained on imbalanced data augmented with synthetic minority samples and evaluated under the balanced population risk. Our theory shows that synthetic data is not always beneficial. In a ``local symmetry" regime, imbalance is not the dominant source of error near the balanced optimum, so adding synthetic samples cannot improve learning rates and can even degrade performance by amplifying generator mismatch. When augmentation can help (a ``local asymmetry" regime), the optimal synthetic size depends on generator accuracy and on whether the generator's residual mismatch is directionally aligned with the intrinsic majority-minority shift. This structure can make the best synthetic size deviate from naive full balancing, sometimes by a small refinement and sometimes substantially when generator bias is systematic. Practically, we recommend Validation-Tuned Synthetic Size (VTSS): select the synthetic size by minimizing balanced validation loss over a range centered near the fully balanced baseline, while allowing meaningful departures when the data indicate them. Simulations and a real sepsis prediction study support the theory and illustrate when synthetic augmentation helps, when it cannot, and how to tune its quantity effectively.
- Abstract(参考訳): 1つのクラスが他のクラスよりもはるかに少ない頻度で観察される不均衡な分類は、しばしば標準的な訓練手順で多数派を優先順位付けし、稀だが重要なケースでは不十分に実行する。
古典的で広く使われている治療法は、合成例で少数派を増強することであるが、基本的な2つの疑問は未解決のままである。
本研究では,不均衡学習における合成増強のための統一的な統計枠組みを構築し,不均衡データに合成マイノリティサンプルを付加したモデルを用いて学習し,バランスの取れた人口リスクを評価した。
我々の理論は、合成データが必ずしも有益であるとは限らないことを示している。
局所対称性」体制では、不均衡はバランスの取れた最適値付近のエラーの原因ではないため、合成サンプルの追加は学習率を向上することができず、ジェネレータミスマッチを増幅することで性能を低下させることができる。(「局所非対称性」体制では、最適な合成サイズはジェネレータの精度と、ジェネレータの残留ミスマッチが本質的な多数派マイノリティシフトに方向整合しているかどうかに依存する。
この構造は、単純な完全なバランスから最高の合成サイズを逸脱させることができる。
VTSS(Validation-Tuned Synthetic Size)を推奨する: 完全平衡ベースライン付近の領域において、バランスの取れたバリデーション損失を最小限に抑えつつ、データの表示時に有意義な離脱を許容し、合成サイズを選択する。
シミュレーションと実際のセプシス予測研究は、合成増強がいつ役に立つか、いつ可能か、その量をどのように効果的に調整するかを、理論と説明を支持している。
関連論文リスト
- Towards Syn-to-Real IQA: A Novel Perspective on Reshaping Synthetic Data Distributions [74.00222571094437]
Blind Image Quality Assessment (BIQA)はディープラーニングを通じて大幅に進歩しているが、大規模なラベル付きデータセットの不足は依然として課題である。
合成データセットから学習した表現は、しばしば回帰性能を妨げる離散的かつクラスタ化されたパターンを示す。
本稿では,BIQAの一般化を促進するために,合成データ分布を再考する新しいフレームワークであるSynDR-IQAを紹介する。
論文 参考訳(メタデータ) (2026-01-01T06:11:16Z) - Bias-Corrected Data Synthesis for Imbalanced Learning [18.33651035966011]
正のサンプルが負のサンプルに比べてわずかに比例する不均衡データは、分類問題において偽の正と偽の負の比率のバランスをとることが困難である。
この課題に対処するための一般的なアプローチは、マイノリティグループのための合成データを生成し、次に観察データと合成データの両方で分類モデルを訓練することである。
本稿では,合成データから得られるバイアスに対処し,多数派からの情報を借りることで,このバイアスに対する一貫した評価を行う。
論文 参考訳(メタデータ) (2025-10-30T00:52:25Z) - Concentration and excess risk bounds for imbalanced classification with synthetic oversampling [5.974778743092435]
我々は,合成データに基づいて分類器を訓練する際のSMOTEとその関連手法の挙動を解析するための理論的枠組みを開発する。
その結果、SMOTEと下流学習アルゴリズムの両方のパラメータチューニングの実践的ガイドラインが導かれる。
論文 参考訳(メタデータ) (2025-10-23T12:12:51Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets [4.389150156866014]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems [0.0]
マイノリティクラスとマイノリティクラス(SOMM)を用いて合成インスタンスを生成する新しい手法を提案する。
SOMMは、マイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
論文 参考訳(メタデータ) (2020-11-09T03:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。