論文の概要: Bias-Corrected Data Synthesis for Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2510.26046v1
- Date: Thu, 30 Oct 2025 00:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.615456
- Title: Bias-Corrected Data Synthesis for Imbalanced Learning
- Title(参考訳): 不均衡学習のためのバイアス補正データ合成
- Authors: Pengfei Lyu, Zhengchi Ma, Linjun Zhang, Anru R. Zhang,
- Abstract要約: 正のサンプルが負のサンプルに比べてわずかに比例する不均衡データは、分類問題において偽の正と偽の負の比率のバランスをとることが困難である。
この課題に対処するための一般的なアプローチは、マイノリティグループのための合成データを生成し、次に観察データと合成データの両方で分類モデルを訓練することである。
本稿では,合成データから得られるバイアスに対処し,多数派からの情報を借りることで,このバイアスに対する一貫した評価を行う。
- 参考スコア(独自算出の注目度): 18.33651035966011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data, where the positive samples represent only a small proportion compared to the negative samples, makes it challenging for classification problems to balance the false positive and false negative rates. A common approach to addressing the challenge involves generating synthetic data for the minority group and then training classification models with both observed and synthetic data. However, since the synthetic data depends on the observed data and fails to replicate the original data distribution accurately, prediction accuracy is reduced when the synthetic data is naively treated as the true data. In this paper, we address the bias introduced by synthetic data and provide consistent estimators for this bias by borrowing information from the majority group. We propose a bias correction procedure to mitigate the adverse effects of synthetic data, enhancing prediction accuracy while avoiding overfitting. This procedure is extended to broader scenarios with imbalanced data, such as imbalanced multi-task learning and causal inference. Theoretical properties, including bounds on bias estimation errors and improvements in prediction accuracy, are provided. Simulation results and data analysis on handwritten digit datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 正のサンプルが負のサンプルに比べてわずかに比例する不均衡データは、分類問題において偽の正と偽の負の比率のバランスをとることが困難である。
この課題に対処するための一般的なアプローチは、マイノリティグループのための合成データを生成し、次に観察データと合成データの両方で分類モデルを訓練することである。
しかし、合成データは観測データに依存するため、元のデータ分布を正確に再現できないため、合成データを真データとしてナビゲート処理した場合、予測精度が低下する。
本稿では,合成データから得られるバイアスに対処し,多数派からの情報を借りることで,このバイアスに対する一貫した評価を行う。
本稿では, 合成データの悪影響を軽減するためのバイアス補正手法を提案し, オーバーフィッティングを回避しつつ予測精度を向上する。
この手順は、不均衡なマルチタスク学習や因果推論など、不均衡なデータを持つ幅広いシナリオに拡張される。
バイアス推定誤差の境界や予測精度の改善を含む理論的特性が提供される。
手書き桁データセットのシミュレーション結果とデータ解析により,本手法の有効性が示された。
関連論文リスト
- Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。
本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:33:09Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Improving Predictions on Highly Unbalanced Data Using Open Source Synthetic Data Upsampling [0.0]
特徴空間のスパース領域におけるギャップを埋める多様なデータポイントを生成することにより,少数群の予測精度を向上させることができることを示す。
我々はMOSTLY AIによるオープンソースソリューションであるSynthetic Data SDKの有効性を評価する。
論文 参考訳(メタデータ) (2025-07-22T10:11:32Z) - Active Data Sampling and Generation for Bias Remediation [0.0]
トレーニング済みのクラスを微調整する際、不公平な分類を補うために、サンプリングとデータ生成の混合戦略が提案されている。
視覚的セマンティック・ロール・ラベリングのためのDeep Modelsのケーススタディとして、提案手法は90/10の不均衡から始まるシミュレートされたジェンダーバイアスを完全に解決することができる。
論文 参考訳(メタデータ) (2025-03-26T10:42:15Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems [39.675787338941184]
本稿では,データ不均衡問題に対処する合成データの可能性について検討する。
具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。
実データと合成データの間には領域ギャップが存在するが,SynAuGを用いたトレーニングと,いくつかの実データを用いた微調整により,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-02T07:59:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。