論文の概要: Data Augmentation with Variational Autoencoder for Imbalanced Dataset
- arxiv url: http://arxiv.org/abs/2412.07039v1
- Date: Mon, 09 Dec 2024 22:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:21.379315
- Title: Data Augmentation with Variational Autoencoder for Imbalanced Dataset
- Title(参考訳): 不均衡データセットのための変分オートエンコーダによるデータ拡張
- Authors: Samuel Stocksieker, Denys Pommeret, Arthur Charpentier,
- Abstract要約: 不均衡分布からの学習は予測モデリングにおいて大きな課題となる。
VAEとスムーズなブートストラップを組み合わせた新しいデータ生成手法を開発し,IRの課題に対処する。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License:
- Abstract: Learning from an imbalanced distribution presents a major challenge in predictive modeling, as it generally leads to a reduction in the performance of standard algorithms. Various approaches exist to address this issue, but many of them concern classification problems, with a limited focus on regression. In this paper, we introduce a novel method aimed at enhancing learning on tabular data in the Imbalanced Regression (IR) framework, which remains a significant problem. We propose to use variational autoencoders (VAE) which are known as a powerful tool for synthetic data generation, offering an interesting approach to modeling and capturing latent representations of complex distributions. However, VAEs can be inefficient when dealing with IR. Therefore, we develop a novel approach for generating data, combining VAE with a smoothed bootstrap, specifically designed to address the challenges of IR. We numerically investigate the scope of this method by comparing it against its competitors on simulations and datasets known for IR.
- Abstract(参考訳): 不均衡分布からの学習は、標準アルゴリズムの性能の低下につながるため、予測モデリングにおいて大きな課題となる。
この問題に対処するためには様々なアプローチが存在するが、それらの多くは回帰に限定した分類問題に関心がある。
本稿では,Im Balanced Regression (IR) フレームワークにおける表データ学習の促進を目的とした新しい手法を提案する。
本稿では,合成データ生成の強力なツールとして知られ,複雑な分布の潜在表現をモデル化およびキャプチャするための興味深いアプローチを提供する変分オートエンコーダ(VAE)を提案する。
しかしながら、VAEはIRを扱う際に非効率である。
そこで本研究では,VOEとスムーズなブートストラップを組み合わせた新しいデータ生成手法を開発し,IRの課題に対処する。
本稿では,IRで知られているシミュレーションやデータセットにおいて,競合他社と比較することにより,本手法の適用範囲を数値的に検討する。
関連論文リスト
- Automating the Discovery of Partial Differential Equations in Dynamical Systems [0.0]
適応型ラッソを用いてスパースレグレッションを利用して自動的にPDEを識別するARGOSフレームワークARGOS-RALの拡張を提案する。
各種ノイズレベルおよびサンプルサイズの下での標準PDEの同定におけるARGOS-RALの性能を厳格に評価した。
以上の結果から,ARGOS-ALはデータから基礎となるPDEを効果的かつ確実に同定し,ほとんどの場合において逐次しきい値リッジ回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-25T09:23:03Z) - Boarding for ISS: Imbalanced Self-Supervised: Discovery of a Scaled Autoencoder for Mixed Tabular Datasets [1.2289361708127877]
不均衡な自己教師付き学習の分野は、広く研究されていない。
既存の研究は主に画像データセットに焦点を当てている。
バランス学習のための新しい指標として,マルチスーパーバイザードバランスMSEを提案する。
論文 参考訳(メタデータ) (2024-03-23T10:37:22Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Federated Latent Class Regression for Hierarchical Data [5.110894308882439]
フェデレートラーニング(FL)は、多くのエージェントがローカルに保存されたデータを開示することなく、グローバル機械学習モデルのトレーニングに参加することを可能にする。
本稿では,新しい確率モデルである階層潜在クラス回帰(HLCR)を提案し,フェデレートラーニング(FEDHLCR)への拡張を提案する。
我々の推論アルゴリズムはベイズ理論から派生したもので、強い収束保証と過剰適合性を提供する。実験結果から、FEDHLCRは非IIDデータセットにおいても高速収束を提供することが示された。
論文 参考訳(メタデータ) (2022-06-22T00:33:04Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Disentangled Recurrent Wasserstein Autoencoder [17.769077848342334]
Recurrent Wasserstein Autoencoder (R-WAE)はシーケンシャルデータの生成モデリングのための新しいフレームワークである。
R-WAEは入力シーケンスの表現を静的および動的因子に切り離す。
私達のモデルは無条件のビデオ生成およびdisentanglementの点では同じ設定の他のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-19T07:43:25Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。