論文の概要: CART-based Synthetic Tabular Data Generation for Imbalanced Regression
- arxiv url: http://arxiv.org/abs/2506.02811v1
- Date: Tue, 03 Jun 2025 12:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.67166
- Title: CART-based Synthetic Tabular Data Generation for Imbalanced Regression
- Title(参考訳): CARTに基づく不均衡回帰のための合成語彙データ生成
- Authors: António Pedro Pinheiro, Rita P. Ribeiro,
- Abstract要約: 我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。
本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
- 参考スコア(独自算出の注目度): 1.342834401139078
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handling imbalanced target distributions in regression tasks remains a significant challenge in tabular data settings where underrepresented regions can hinder model performance. Among data-level solutions, some proposals, such as random sampling and SMOTE-based approaches, propose adapting classification techniques to regression tasks. However, these methods typically rely on crisp, artificial thresholds over the target variable, a limitation inherited from classification settings that can introduce arbitrariness, often leading to non-intuitive and potentially misleading problem formulations. While recent generative models, such as GANs and VAEs, provide flexible sample synthesis, they come with high computational costs and limited interpretability. In this study, we propose adapting an existing CART-based synthetic data generation method, tailoring it for imbalanced regression. The new method integrates relevance and density-based mechanisms to guide sampling in sparse regions of the target space and employs a threshold-free, feature-driven generation process. Our experimental study focuses on the prediction of extreme target values across benchmark datasets. The results indicate that the proposed method is competitive with other resampling and generative strategies in terms of performance, while offering faster execution and greater transparency. These results highlight the method's potential as a transparent, scalable data-level strategy for improving regression models in imbalanced domains.
- Abstract(参考訳): 不均衡なターゲット分布を回帰タスクで処理することは、未表現領域がモデル性能を妨げうる表形式のデータ設定において、依然として大きな課題である。
データレベルのソリューションの中で、ランダムサンプリングやSMOTEベースのアプローチなどの提案では、回帰タスクに適応する分類手法を提案する。
しかしながら、これらの手法は典型的には、任意性を導入することができる分類設定から受け継いだ制限であり、しばしば直観的でない、あるいは誤解を招く可能性のある問題定式化に繋がる、鮮明で人工的なしきい値に依存する。
GANやVAEのような最近の生成モデルは柔軟なサンプル合成を提供するが、高い計算コストと限定的な解釈可能性を持つ。
本研究では,既存のCARTに基づく合成データ生成手法を適応させ,不均衡回帰に適応させることを提案する。
提案手法は,対象空間のスパース領域におけるサンプリングを誘導する関連性および密度に基づくメカニズムを統合し,閾値のない特徴駆動生成プロセスを採用する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
提案手法は,高速化と透明性の向上を図りながら,他の再サンプリング・生成手法と性能的に競合することを示す。
これらの結果は、不均衡領域における回帰モデルを改善するための透過的でスケーラブルなデータレベルの戦略として、この手法の可能性を強調している。
関連論文リスト
- Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - Histogram Approaches for Imbalanced Data Streams Regression [1.8385275253826225]
不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。
合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
論文 参考訳(メタデータ) (2025-01-29T11:03:02Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。