論文の概要: Uncertainty-Aware Generative Oversampling Using an Entropy-Guided Conditional Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2509.25334v2
- Date: Thu, 02 Oct 2025 06:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.153264
- Title: Uncertainty-Aware Generative Oversampling Using an Entropy-Guided Conditional Variational Autoencoder
- Title(参考訳): エントロピー誘導条件変分オートエンコーダを用いた不確実性を考慮した生成オーバーサンプリング
- Authors: Amirhossein Zare, Amirhessam Zare, Parmida Sadat Pezeshki, Herlock, Rahimi, Ali Ebrahimi, Ignacio Vázquez-García, Leo Anthony Celi,
- Abstract要約: 本稿では,表現学習とデータ生成の両方に局所的不確実性を取り入れた生成的オーバーサンプリングフレームワークを提案する。
LEO-CVAEは,従来のオーバーサンプリングや生成ベースラインよりも優れた性能を示す。
これらの結果は、複雑な非線形構造によって支配される領域における不均衡学習に対する不確実性を考慮した生成的オーバーサンプリングの価値を強調した。
- 参考スコア(独自算出の注目度): 2.1629319643623655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class imbalance remains a major challenge in machine learning, especially for high-dimensional biomedical data where nonlinear manifold structures dominate. Traditional oversampling methods such as SMOTE rely on local linear interpolation, often producing implausible synthetic samples. Deep generative models like Conditional Variational Autoencoders (CVAEs) better capture nonlinear distributions, but standard variants treat all minority samples equally, neglecting the importance of uncertain, boundary-region examples emphasized by heuristic methods like Borderline-SMOTE and ADASYN. We propose Local Entropy-Guided Oversampling with a CVAE (LEO-CVAE), a generative oversampling framework that explicitly incorporates local uncertainty into both representation learning and data generation. To quantify uncertainty, we compute Shannon entropy over the class distribution in a sample's neighborhood: high entropy indicates greater class overlap, serving as a proxy for uncertainty. LEO-CVAE leverages this signal through two mechanisms: (i) a Local Entropy-Weighted Loss (LEWL) that emphasizes robust learning in uncertain regions, and (ii) an entropy-guided sampling strategy that concentrates generation in these informative, class-overlapping areas. Applied to clinical genomics datasets (ADNI and TCGA lung cancer), LEO-CVAE consistently improves classifier performance, outperforming both traditional oversampling and generative baselines. These results highlight the value of uncertainty-aware generative oversampling for imbalanced learning in domains governed by complex nonlinear structures, such as omics data.
- Abstract(参考訳): クラス不均衡は、特に非線形多様体構造が支配する高次元バイオメディカルデータにおいて、機械学習における大きな課題である。
SMOTEのような従来のオーバーサンプリング法は局所的な線形補間に依存しており、しばしば不可解な合成サンプルを生成する。
条件付き変分オートエンコーダ(CVAE)のような深い生成モデルは、非線形分布をよりよく捉えているが、標準変分法は、ボーダーライン-SMOTEやADASYNのようなヒューリスティックな方法によって強調される、不確実な境界領域の例を無視して、すべてのマイノリティ標本を等しく扱う。
本稿では,局所的な不確実性を表現学習とデータ生成の両方に明示的に組み込んだ,CVAE(LEO-CVAE)を用いた局所エントロピーガイドオーバーサンプリングを提案する。
不確実性を定量化するために、サンプル近傍のクラス分布上のシャノンエントロピーを計算する。
LEO-CVAEは2つのメカニズムを通してこの信号を利用する。
(i)不確実な地域での堅牢な学習を強調するローカル・エントロピー・ウェイト・ロス(LEWL)
(II)エントロピー誘導型サンプリング戦略は,これらの情報に富むクラスオーバーラップ領域における生成に集中する。
臨床ゲノミクスデータセット(ADNIおよびTCGA肺がん)に適用すると、LEO-CVAEは一貫して分類器の性能を改善し、従来のオーバーサンプリングとジェネレーションベースラインの両方を上回っている。
これらの結果は、オミクスデータのような複雑な非線形構造によって支配される領域における不均衡学習に対する不確実性を考慮した生成的オーバーサンプリングの価値を強調した。
関連論文リスト
- Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - SMOGAN: Synthetic Minority Oversampling with GAN Refinement for Imbalanced Regression [0.0]
不均衡回帰とは、ターゲット変数が歪んだ予測タスクを指す。
この歪みは、高密度領域に集中する機械学習モデル、特にニューラルネットワークを妨げる。
不均衡回帰のための2段階オーバーサンプリングフレームワークであるSMOGANを提案する。
論文 参考訳(メタデータ) (2025-04-29T20:15:25Z) - Local distribution-based adaptive oversampling for imbalanced regression [0.0]
不均衡回帰は、連続目標変数が歪んだ分布を持ち、スパース領域を生成するときに起こる。
LDAO(Local Distribution-based Adaptive Oversampling, 局所分布に基づく適応オーバーサンプリング)を提案する。
LDAOは、各局所分布に固有の統計構造を保持しながら、目標範囲全体にわたってバランスの取れた表現を実現する。
論文 参考訳(メタデータ) (2025-04-19T14:36:41Z) - INGB: Informed Nonlinear Granular Ball Oversampling Framework for Noisy
Imbalanced Classification [23.9207014576848]
分類問題では、データセットは通常、不均衡、ノイズ、複雑である。
本稿では, グラニュラーボール(INGB)をオーバーサンプリングの新たな方向とする非線形オーバーサンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-03T01:55:20Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。