論文の概要: A data-science pipeline to enable the Interpretability of Many-Objective
Feature Selection
- arxiv url: http://arxiv.org/abs/2311.18746v1
- Date: Thu, 30 Nov 2023 17:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:35:21.097208
- Title: A data-science pipeline to enable the Interpretability of Many-Objective
Feature Selection
- Title(参考訳): 多目的特徴選択の解釈を可能にするデータサイエンスパイプライン
- Authors: Uchechukwu F. Njoku, Alberto Abell\'o, Besim Bilalli, Gianluca
Bontempi
- Abstract要約: 多目的特徴選択(MOFS)アプローチは、4つ以上の目的を用いて、教師付き学習タスクにおける機能のサブセットの関連性を決定する。
本稿では,MOFS結果の解釈と比較においてデータサイエンティストを支援する手法を提案する。
- 参考スコア(独自算出の注目度): 0.1474723404975345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many-Objective Feature Selection (MOFS) approaches use four or more
objectives to determine the relevance of a subset of features in a supervised
learning task. As a consequence, MOFS typically returns a large set of
non-dominated solutions, which have to be assessed by the data scientist in
order to proceed with the final choice. Given the multi-variate nature of the
assessment, which may include criteria (e.g. fairness) not related to
predictive accuracy, this step is often not straightforward and suffers from
the lack of existing tools. For instance, it is common to make use of a tabular
presentation of the solutions, which provide little information about the
trade-offs and the relations between criteria over the set of solutions.
This paper proposes an original methodology to support data scientists in the
interpretation and comparison of the MOFS outcome by combining post-processing
and visualisation of the set of solutions. The methodology supports the data
scientist in the selection of an optimal feature subset by providing her with
high-level information at three different levels: objectives, solutions, and
individual features.
The methodology is experimentally assessed on two feature selection tasks
adopting a GA-based MOFS with six objectives (number of selected features,
balanced accuracy, F1-Score, variance inflation factor, statistical parity, and
equalised odds). The results show the added value of the methodology in the
selection of the final subset of features.
- Abstract(参考訳): 多目的特徴選択(mofs)アプローチは、4つ以上の目的を用いて教師付き学習タスクにおける特徴のサブセットの関連性を決定する。
その結果、MOFSは通常、最終的な選択を進めるためにデータ科学者によって評価されなければならない大量の非支配的なソリューションを返します。
予測精度に関係のない基準(例えば公正性)を含むような評価の多変量性を考えると、このステップは単純ではなく、既存のツールの欠如に悩まされることが多い。
例えば、ソリューションセットに関するトレードオフや基準間の関係についてはほとんど情報を提供しない、ソリューションの表形式でのプレゼンテーションを利用するのが一般的である。
本稿では,mofs結果の解釈と比較において,処理後と解集合の可視化を組み合わせることでデータサイエンティストを支援する手法を提案する。
この方法論は、目的、ソリューション、個々の機能という3つの異なるレベルでハイレベルな情報を提供することで、データサイエンティストが最適な機能サブセットを選択することをサポートする。
この手法は,GAベースのMOFSを6つの目的(選択された特徴数,平衡精度,F1スコア,分散インフレーション係数,統計パリティ,等化オッズ)で採用した2つの特徴選択タスクを実験的に評価した。
その結果,機能の最終サブセットの選択において,方法論の付加価値が示された。
関連論文リスト
- Enhancing Neural Subset Selection: Integrating Background Information
into Set Representations [55.44881879377666]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate
ranks [49.85896045032822]
非支配解と最高多変量階との自然な関係を示し、これは合同累積分布関数(CDF)の最外層線と一致する。
我々はCDFインジケータに基づくBOtiedと呼ばれる取得関数を提案する。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Multi-Objective Genetic Algorithm for Multi-View Feature Selection [0.23343923880060582]
多視点データに対する従来の特徴選択手法の限界を克服する新しい遺伝的アルゴリズム戦略を提案する。
提案手法は多視点多目的特徴選択遺伝的アルゴリズム (MMFS-GA) と呼ばれ、ビュー内およびビュー間における特徴の最適なサブセットを同時に選択する。
合成データと実データを含む3つのベンチマークデータセットに対する評価結果から,最良基準法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-05-26T13:25:20Z) - A User-Guided Bayesian Framework for Ensemble Feature Selection in Life
Science Applications (UBayFS) [0.0]
本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。
提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。
標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。
論文 参考訳(メタデータ) (2021-04-30T06:51:33Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Feature Selection for Huge Data via Minipatch Learning [0.0]
安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。
STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。
われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
論文 参考訳(メタデータ) (2020-10-16T17:41:08Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。