論文の概要: Distance Rank Score: Unsupervised filter method for feature selection on
imbalanced dataset
- arxiv url: http://arxiv.org/abs/2305.19804v1
- Date: Wed, 31 May 2023 12:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:41:08.102974
- Title: Distance Rank Score: Unsupervised filter method for feature selection on
imbalanced dataset
- Title(参考訳): 距離ランクスコア:不均衡データセットの特徴選択のための教師なしフィルタ法
- Authors: Katarina Firdova and C\'eline Labart and Arthur Martel
- Abstract要約: 本稿では,教師なし特徴選択のための新しいフィルタ手法を提案する。
これは特に不均衡なマルチクラスデータセットに有効である。
本手法は,観測距離と特徴値とのスピアマンのランク相関に基づく。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a new filter method for unsupervised feature selection.
This method is particularly effective on imbalanced multi-class dataset, as in
case of clusters of different anomaly types. Existing methods usually involve
the variance of the features, which is not suitable when the different types of
observations are not represented equally. Our method, based on Spearman's Rank
Correlation between distances on the observations and on feature values, avoids
this drawback. The performance of the method is measured on several clustering
problems and is compared with existing filter methods suitable for unsupervised
data.
- Abstract(参考訳): 本稿では,教師なし特徴選択のための新しいフィルタ手法を提案する。
この方法は、異なる異常型のクラスタの場合のように、不均衡なマルチクラスデータセットに特に有効である。
既存の手法は通常特徴のばらつきを伴い、異なるタイプの観測が等しく表現されない場合には不適当である。
本手法は,観測距離と特徴値との間のスピアマンのランク相関に基づいて,この欠点を回避する。
この手法の性能はクラスタリング問題で測定され、教師なしデータに適した既存のフィルタ手法と比較される。
関連論文リスト
- Implicit Regularization for Multi-label Feature Selection [1.5771347525430772]
暗黙の正規化とラベル埋め込みに基づく新しい推定器を用いて,多言語学習の文脈における特徴選択の問題に対処する。
いくつかの既知のベンチマークデータセットの実験結果から、提案された推定器は余分なバイアスを伴わず、良心的な過度な適合につながる可能性が示唆されている。
論文 参考訳(メタデータ) (2024-11-18T10:08:05Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Graph-based Extreme Feature Selection for Multi-class Classification
Tasks [7.863638253070439]
本研究は,多クラス分類タスクに適したグラフベースのフィルタ特徴選択手法に焦点をあてる。
分類作業に有用な情報をコードするオリジナルデータのスケッチを作成するために,選択した特徴の数を劇的に削減することを目的としている。
論文 参考訳(メタデータ) (2023-03-03T09:06:35Z) - A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。
近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。
コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文 参考訳(メタデータ) (2023-01-15T19:26:17Z) - Unsupervised Model Selection for Time-series Anomaly Detection [7.8027110514393785]
提案手法は, 予測誤差, モデル中心性, および, 注入された合成異常に対する性能の3種類のサロゲート(教師なし)メトリクスを同定する。
我々は、厳密なランク集約問題として、複数の不完全なサロゲート指標との計量結合を定式化する。
複数の実世界のデータセットに対する大規模な実験は、我々の提案した教師なしアプローチが、最も正確なモデルを選択するのと同じくらい効果的であることを示す。
論文 参考訳(メタデータ) (2022-10-03T16:49:30Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - A Prototype-Oriented Framework for Unsupervised Domain Adaptation [52.25537670028037]
メモリと計算効率のよい確率的フレームワークを提供し、クラスプロトタイプを抽出し、ターゲットとなる特徴をそれらと整合させる。
本稿では,単一ソース,マルチソース,クラス不均衡,ソースプライベートドメイン適応など,幅広いシナリオにおいて,本手法の汎用性を実証する。
論文 参考訳(メタデータ) (2021-10-22T19:23:22Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。