論文の概要: Multi-objective Feature Selection with Missing Data in Classification
- arxiv url: http://arxiv.org/abs/2104.08747v1
- Date: Sun, 18 Apr 2021 07:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 10:36:34.612293
- Title: Multi-objective Feature Selection with Missing Data in Classification
- Title(参考訳): 欠測データを用いた多目的特徴選択
- Authors: Yu Xue, Yihang Tang, Xin Xu, Jiayu Liang, Ferrante Neri
- Abstract要約: 特徴選択(FS)は機械学習において重要な研究トピックである。
現実世界のアプリケーションの主な問題の1つは、データの欠落です。
問題の第三の目的として信頼性を含める。
- 参考スコア(独自算出の注目度): 6.110690376704483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature selection (FS) is an important research topic in machine learning.
Usually, FS is modelled as a+ bi-objective optimization problem whose
objectives are: 1) classification accuracy; 2) number of features. One of the
main issues in real-world applications is missing data. Databases with missing
data are likely to be unreliable. Thus, FS performed on a data set missing some
data is also unreliable. In order to directly control this issue plaguing the
field, we propose in this study a novel modelling of FS: we include reliability
as the third objective of the problem. In order to address the modified
problem, we propose the application of the non-dominated sorting genetic
algorithm-III (NSGA-III). We selected six incomplete data sets from the
University of California Irvine (UCI) machine learning repository. We used the
mean imputation method to deal with the missing data. In the experiments,
k-nearest neighbors (K-NN) is used as the classifier to evaluate the feature
subsets. Experimental results show that the proposed three-objective model
coupled with NSGA-III efficiently addresses the FS problem for the six data
sets included in this study.
- Abstract(参考訳): 特徴選択(FS)は機械学習において重要な研究トピックである。
通常、FS は、目的が(1) 分類精度; 2) 特徴数である+双目的最適化問題としてモデル化される。
現実世界のアプリケーションで大きな問題のひとつは、データ不足だ。
データがないデータベースは信頼性が低い。
したがって、いくつかのデータがないデータセットで実行されたFSも信頼できない。
本研究では,この問題を直接制御するために,FSの新たなモデリング手法を提案する。
修正問題に対処するため,非支配的ソート遺伝的アルゴリズム-III (NSGA-III) の適用を提案する。
カリフォルニア大学アーバイン校(UCI)の機械学習リポジトリから6つの不完全なデータセットを選択した。
失われたデータを扱うために平均的インプテーション法を用いた。
実験では、k-nearest neighbors (K-NN) が特徴部分集合を評価する分類器として使用される。
実験の結果,NSGA-IIIと組み合わせた3目的モデルでは,本研究に含まれる6つのデータセットのFS問題に効率よく対処できることがわかった。
関連論文リスト
- 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation [13.058299222554295]
大きな言語モデルは一般的なタスクでは優れていますが、医療のような専門分野では苦労しています。
2段階モデル中心のデータ選択フレームワークDe Difficulty Data Selection (3DS)を提案する。
実世界の医療データセットに関する我々の実験は、既存の方法よりも5.29%以上の精度で3DSの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-10-13T02:29:00Z) - SEGAN: semi-supervised learning approach for missing data imputation [12.552699799009037]
本稿では,セミ教師付き学習に基づくデータ補完モデルSEGANを提案する。
SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。
本稿では,SEGANモデルがナッシュ平衡に達すると,実データ分布特性を学習できることを理論的に証明する。
論文 参考訳(メタデータ) (2024-05-21T11:42:20Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - A data-science pipeline to enable the Interpretability of Many-Objective
Feature Selection [0.1474723404975345]
多目的特徴選択(MOFS)アプローチは、4つ以上の目的を用いて、教師付き学習タスクにおける機能のサブセットの関連性を決定する。
本稿では,MOFS結果の解釈と比較においてデータサイエンティストを支援する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T17:44:22Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - AdAUC: End-to-end Adversarial AUC Optimization Against Long-tail
Problems [102.95119281306893]
我々は、AUCを最適化するための敵の訓練方法を探求するための早期トライアルを提示する。
我々は、AUC最適化問題をサドル点問題として再構成し、目的がインスタンスワイズ関数となる。
我々の分析は, min-max問題の勾配を計算して, 逆例を生成するアルゴリズムが求められているため, 既存の研究と異なる。
論文 参考訳(メタデータ) (2022-06-24T09:13:39Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Feature Selection for Imbalanced Data with Deep Sparse Autoencoders
Ensemble [0.5352699766206808]
クラスの不均衡は、学習アルゴリズムの多くのドメインアプリケーションで一般的な問題です。
本稿では,Deep Sparse AutoEncoders Ensembleの再構成誤差に基づいて,フィルタFSアルゴリズムのランク付け機能を提案する。
サンプルサイズの異なる高次元データセットに対する実験において,本アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2021-03-22T09:17:08Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。