論文の概要: Feature Selection for Imbalanced Data with Deep Sparse Autoencoders
Ensemble
- arxiv url: http://arxiv.org/abs/2103.11678v1
- Date: Mon, 22 Mar 2021 09:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:52:18.752491
- Title: Feature Selection for Imbalanced Data with Deep Sparse Autoencoders
Ensemble
- Title(参考訳): ディープスパースオートエンコーダを用いた不均衡データの特徴選択
- Authors: Michela C. Massi, Francesca Ieva, Francesca Gasperoni and Anna Maria
Paganoni
- Abstract要約: クラスの不均衡は、学習アルゴリズムの多くのドメインアプリケーションで一般的な問題です。
本稿では,Deep Sparse AutoEncoders Ensembleの再構成誤差に基づいて,フィルタFSアルゴリズムのランク付け機能を提案する。
サンプルサイズの異なる高次元データセットに対する実験において,本アルゴリズムの有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 0.5352699766206808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalance is a common issue in many domain applications of learning
algorithms. Oftentimes, in the same domains it is much more relevant to
correctly classify and profile minority class observations. This need can be
addressed by Feature Selection (FS), that offers several further advantages,
s.a. decreasing computational costs, aiding inference and interpretability.
However, traditional FS techniques may become sub-optimal in the presence of
strongly imbalanced data. To achieve FS advantages in this setting, we propose
a filtering FS algorithm ranking feature importance on the basis of the
Reconstruction Error of a Deep Sparse AutoEncoders Ensemble (DSAEE). We use
each DSAE trained only on majority class to reconstruct both classes. From the
analysis of the aggregated Reconstruction Error, we determine the features
where the minority class presents a different distribution of values w.r.t. the
overrepresented one, thus identifying the most relevant features to
discriminate between the two. We empirically demonstrate the efficacy of our
algorithm in several experiments on high-dimensional datasets of varying sample
size, showcasing its capability to select relevant and generalizable features
to profile and classify minority class, outperforming other benchmark FS
methods. We also briefly present a real application in radiogenomics, where the
methodology was applied successfully.
- Abstract(参考訳): クラス不均衡は、学習アルゴリズムの多くの分野における一般的な問題である。
しばしば、同じ領域において、マイノリティ階級の観察を正しく分類し、プロファイルすることがより関係している。
このニーズに対処するにはFeature Selection (FS) があり、計算コストの削減や推論や解釈可能性の向上など、いくつかの利点がある。
しかし、従来のFS技術は、強い不均衡なデータが存在する場合、準最適になる可能性がある。
そこで本稿では,Deep Sparse AutoEncoders Ensemble (DSAEE) の再構成誤差に基づいて,FSアルゴリズムのランク付け機能の重要性をフィルタする手法を提案する。
各dsaeは多数クラスのみをトレーニングし、両方のクラスを再構築します。
集約された再構成誤差の分析から,少数クラスが値w.r.tの異なる分布を示す特徴を決定する。
過度に表現された特徴は2つの特徴を区別する最も関連する特徴を識別する。
サンプルサイズの異なる高次元データセットを用いた実験において,本アルゴリズムの有効性を実証的に実証し,重要かつ一般化可能な特徴を選択してマイノリティクラスをプロファイルし分類し,他のベンチマークFS法より優れていることを示す。
また,放射線ゲノミクスの応用事例として,その方法論を応用した。
関連論文リスト
- Enhancing Imbalance Learning: A Novel Slack-Factor Fuzzy SVM Approach [0.0]
サポートベクターマシン(FSVM)は、様々なファジィメンバシップをサンプルに割り当てることで、クラス不均衡に対処する。
最近開発されたslack-factor-based FSVM(SFFSVM)は、slack Factorを使用して、誤分類可能性に基づいてファジィメンバシップを調整することで、従来のFSVMを改善している。
そこで我々は,新しい位置パラメータを導入する改良されたスラックファクターベースFSVM(ISFFSVM)を提案する。
論文 参考訳(メタデータ) (2024-11-26T05:47:01Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - A new computationally efficient algorithm to solve Feature Selection for
Functional Data Classification in high-dimensional spaces [41.79972837288401]
本稿では,機能的分類のための特徴選択手法FSFCを紹介し,特徴選択と機能的データの分類を共同で行うという課題に対処する。
我々は機能的主成分を採用し、Dual Augmented Lagrangianアルゴリズムの新しい適応バージョンを開発した。
FSFCの計算効率は、特徴数が統計単位数よりかなり多いような高次元シナリオを処理できる。
論文 参考訳(メタデータ) (2024-01-11T09:17:25Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [18.481370450591317]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification [1.0312968200748118]
高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。
マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。
そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
論文 参考訳(メタデータ) (2021-11-05T07:44:28Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - SetConv: A New Approach for Learning from Imbalanced Data [29.366843553056594]
集合畳み込み操作とエピソード学習戦略を提案し,各クラスに1つの代表を抽出する。
提案アルゴリズムは入力順序に関わらず置換不変であることを示す。
論文 参考訳(メタデータ) (2021-04-03T22:33:30Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。