論文の概要: A novel feature selection framework for incomplete data
- arxiv url: http://arxiv.org/abs/2312.04171v1
- Date: Thu, 7 Dec 2023 09:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:30:39.921847
- Title: A novel feature selection framework for incomplete data
- Title(参考訳): 不完全データのための新しい特徴選択フレームワーク
- Authors: Cong Guo
- Abstract要約: 既存の方法は不完全データを完了し、インプットされたデータに基づいて特徴選択を行う。
命令と特徴選択は完全に独立したステップであるため、命令の間は特徴の重要性を考慮できない。
本稿では,特徴の重要度を考慮した不完全なデータ特徴選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.904776731152113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection on incomplete datasets is an exceptionally challenging
task. Existing methods address this challenge by first employing imputation
methods to complete the incomplete data and then conducting feature selection
based on the imputed data. Since imputation and feature selection are entirely
independent steps, the importance of features cannot be considered during
imputation. However, in real-world scenarios or datasets, different features
have varying degrees of importance. To address this, we propose a novel
incomplete data feature selection framework that considers feature importance.
The framework mainly consists of two alternating iterative stages: the M-stage
and the W-stage. In the M-stage, missing values are imputed based on a given
feature importance vector and multiple initial imputation results. In the
W-stage, an improved reliefF algorithm is employed to learn the feature
importance vector based on the imputed data. Specifically, the feature
importance vector obtained in the current iteration of the W-stage serves as
input for the next iteration of the M-stage. Experimental results on both
artificially generated and real incomplete datasets demonstrate that the
proposed method outperforms other approaches significantly.
- Abstract(参考訳): 不完全なデータセットの機能選択は、非常に難しい作業です。
既存の手法では、まず不完全データを完成させ、その不完全データに基づいて特徴選択を行うことで、この課題に対処する。
インプテーションと特徴の選択は完全に独立したステップであるため、インプテーションの間は機能の重要性は考慮できない。
しかし、現実世界のシナリオやデータセットでは、異なる特徴が様々な重要性を持っている。
そこで本稿では,特徴の重要性を考慮した不完全なデータ特徴選択フレームワークを提案する。
フレームワークは主に、2つの反復的なステージ(MステージとWステージ)で構成されている。
Mステージでは、与えられた特徴重要度ベクトルと複数の初期計算結果に基づいて、欠落値をインプットする。
wステージでは、インデュートデータに基づいて特徴重要ベクトルを学習するために改良されたレリーフアルゴリズムが用いられる。
具体的には、Wステージの現在のイテレーションで得られる特徴重要ベクトルがMステージの次のイテレーションの入力となる。
人工的に生成されたデータセットと実際の不完全データセットの両方の実験結果から,提案手法が他の手法よりも優れていることが示された。
関連論文リスト
- An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A data-science pipeline to enable the Interpretability of Many-Objective
Feature Selection [0.1474723404975345]
多目的特徴選択(MOFS)アプローチは、4つ以上の目的を用いて、教師付き学習タスクにおける機能のサブセットの関連性を決定する。
本稿では,MOFS結果の解釈と比較においてデータサイエンティストを支援する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T17:44:22Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Multi-Objective Evolutionary approach for the Performance Improvement of
Learners using Ensembling Feature selection and Discretization Technique on
Medical data [8.121462458089143]
本稿では,新しい多目的型次元還元フレームワークを提案する。
これは、特徴選択と離散化を行うためのアンサンブルモデルとして、離散化と特徴縮小の両方を組み込んでいる。
論文 参考訳(メタデータ) (2020-04-16T06:32:15Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。