論文の概要: VAE-Inf: A statistically interpretable generative paradigm for imbalanced classification
- arxiv url: http://arxiv.org/abs/2604.25334v1
- Date: Tue, 28 Apr 2026 07:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.766262
- Title: VAE-Inf: A statistically interpretable generative paradigm for imbalanced classification
- Title(参考訳): VAE-Inf:不均衡分類のための統計的解釈可能な生成パラダイム
- Authors: Hongfei Wu, Ruijian Han, Yancheng Yuan,
- Abstract要約: 生成的モデリングと識別的分類のギャップを埋める2段階の枠組みを提案する。
推論のために、自然な仮説テストの解釈を受け入れるプロジェクションベースのスコアを導入する。
様々な実世界のベンチマークの実験は、我々のフレームワークが他のアプローチと競合する性能を達成していることを示している。
- 参考スコア(独自算出の注目度): 8.677199689027772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced classification remains a pervasive challenge in machine learning, particularly when minority samples are too scarce to provide a robust discriminative boundary. In such extreme scenarios, conventional models often suffer from unstable decision boundaries and a lack of reliable error control. To bridge the gap between generative modeling and discriminative classification, we propose a two-stage framework \textbf{VAE-Inf} that integrates deep representation learning with statistically interpretable hypothesis testing. In the first stage, we adopt a one-class modeling perspective by training a variational autoencoder (VAE) exclusively on majority-class data to capture the underlying reference distribution. The resulting latent posteriors are aggregated via a Wasserstein barycenter to construct a global Gaussian reference model, providing a geometrically principled baseline for the majority class. In the second stage, we transform this generative foundation into a discriminative classifier by fine-tuning the encoder with limited minority samples. This is achieved through a novel distribution-aware loss that enforces probabilistic separation between classes based on variance-normalized projection statistics. For inference, we introduce a projection-based score that admits a natural hypothesis testing interpretation, allowing for a distribution-free calibration procedure. This approach yields exact finite-sample control of the Type-I error (false positive rate) without relying on restrictive parametric assumptions. Extensive experiments on diverse real-world benchmarks demonstrate that our framework achieves competitive performance against other approaches. The codes are available upon request.
- Abstract(参考訳): 不均衡な分類は、マシンラーニングにおいて、特に少数派のサンプルが不足しているため、堅牢な差別的境界を提供する場合において、広く普及する課題である。
このような極端なシナリオでは、従来のモデルは不安定な決定境界と信頼性のあるエラー制御の欠如に悩まされることが多い。
生成的モデリングと識別的分類のギャップを埋めるために、深層表現学習と統計的に解釈可能な仮説テストを統合する2段階のフレームワーク「textbf{VAE-Inf}」を提案する。
第一段階では、基礎となる参照分布を捉えるために、多数クラスデータにのみ依存する変分オートエンコーダ(VAE)を訓練することにより、一クラスモデリングの視点を採用する。
得られた潜在後部はワッサーシュタイン・バリセンタを介して集約され、大域ガウス参照モデルを構築し、多元類に対する幾何学的原理化されたベースラインを提供する。
第2段階では、この生成基盤を、限られた少数サンプルを用いてエンコーダを微調整することにより、識別的分類器に変換する。
これは分散正規化射影統計に基づくクラス間の確率的分離を強制する分布認識損失によって達成される。
推論のために、自然な仮説テスト解釈を許容するプロジェクションベースのスコアを導入し、分布のない校正手順を可能にする。
このアプローチは、制限的なパラメトリック仮定に頼ることなく、Type-I誤差(偽陽性率)を正確に有限サンプル制御する。
多様な実世界のベンチマークに関する大規模な実験は、我々のフレームワークが他のアプローチと競合する性能を達成していることを示している。
コードは要求に応じて利用可能だ。
関連論文リスト
- Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - A Novel Framework for Uncertainty Quantification via Proper Scores for Classification and Beyond [1.5229257192293202]
本稿では,機械学習における不確実性定量化のための新しい枠組みを提案する。
具体的には、カーネルベースの適切なスコアであるカーネルスコアを用いて、サンプルベースの生成モデルを評価する。
キャリブレーション・シャープネスの分解を分類を超えて一般化し、適切なキャリブレーション誤差の定義を動機付ける。
論文 参考訳(メタデータ) (2025-08-25T13:11:03Z) - Probabilistic Variational Contrastive Learning [8.23660331371415]
我々は,エビデンスローバウンド(ELBO)を最大化するデコーダフリーフレームワークを提案する。
約$q_theta(z|x)$を投影正規分布としてモデル化し、確率的埋め込みのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-06-11T20:26:07Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。