論文の概要: An information theoretic approach to quantify the stability of feature
selection and ranking algorithms
- arxiv url: http://arxiv.org/abs/2402.05295v1
- Date: Wed, 7 Feb 2024 22:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:10:57.750470
- Title: An information theoretic approach to quantify the stability of feature
selection and ranking algorithms
- Title(参考訳): 特徴選択とランク付けアルゴリズムの安定性を定量化する情報理論的アプローチ
- Authors: Alaiz-Rodriguez, R., and Parnell, A. C
- Abstract要約: 本稿では,ジェンセン・シャノンの発散に基づく情報理論のアプローチを提案し,そのロバスト性を定量化する。
他の安定度測度とは異なり、この測度は、完全なランクリスト、特徴サブセット、そしてより研究の少ない部分的なランクリストといった、異なるアルゴリズムの結果に適合する。
本研究では, この安定性指標を, 完全に制御された方法で生成したデータと併用し, 特徴ランク付けと選択結果に関するSpearmansランキング相関やKunchevasインデックスなどの一般的な指標と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature selection is a key step when dealing with high dimensional data. In
particular, these techniques simplify the process of knowledge discovery from
the data by selecting the most relevant features out of the noisy, redundant
and irrelevant features. A problem that arises in many of these practical
applications is that the outcome of the feature selection algorithm is not
stable. Thus, small variations in the data may yield very different feature
rankings. Assessing the stability of these methods becomes an important issue
in the previously mentioned situations. We propose an information theoretic
approach based on the Jensen Shannon divergence to quantify this robustness.
Unlike other stability measures, this metric is suitable for different
algorithm outcomes: full ranked lists, feature subsets as well as the lesser
studied partial ranked lists. This generalized metric quantifies the difference
among a whole set of lists with the same size, following a probabilistic
approach and being able to give more importance to the disagreements that
appear at the top of the list. Moreover, it possesses desirable properties
including correction for change, upper lower bounds and conditions for a
deterministic selection. We illustrate the use of this stability metric with
data generated in a fully controlled way and compare it with popular metrics
including the Spearmans rank correlation and the Kunchevas index on feature
ranking and selection outcomes, respectively. Additionally, experimental
validation of the proposed approach is carried out on a real-world problem of
food quality assessment showing its potential to quantify stability from
different perspectives.
- Abstract(参考訳): 特徴選択は高次元データを扱う上で重要なステップである。
特に、これらのテクニックは、ノイズ、冗長、無関係な特徴から最も関連する特徴を選択することによって、データから知識発見のプロセスを簡単にします。
これらの実用的応用の多くで生じる問題は、特徴選択アルゴリズムの結果が安定していないことである。
したがって、データの小さなバリエーションは、非常に異なる特徴ランキングをもたらす可能性がある。
これらの方法の安定性を評価することは、前述の状況において重要な問題となる。
本研究では,jensen shannon 発散に基づく情報理論的手法を提案する。
他の安定性尺度とは異なり、この指標はアルゴリズムの結果に適合する: 完全なランクリスト、特徴部分集合、そして、あまり研究されていない部分ランクリストである。
この一般化された計量は、確率的アプローチに従って、同じ大きさのリストの集合全体の差を定量化し、リストの上部に現れる不一致をより重要視することができる。
さらに、変更の補正、下限の上限、決定論的選択の条件など、望ましい特性を有する。
本研究では, この安定性指標を, 完全に制御された方法で生成したデータと併用し, 特徴ランク付けと選択結果に関するSpearmansランキング相関やKunchevasインデックスなどの一般的な指標と比較する。
さらに, 食品品質評価の現実問題において, 異なる観点からの安定性の定量化の可能性を示す実験的検討を行った。
関連論文リスト
- Automatic feature selection and weighting using Differentiable Information Imbalance [41.452380773977154]
本稿では,特徴集合間で情報内容のランク付けを行う自動データ解析手法DIIを紹介する。
地上の真理特徴空間における距離に応じて最も近い隣人に基づいて、入力特徴量の低次元部分集合を求める。
識別可能な情報不均衡を損失関数として利用することにより、入力の相対的特徴重みを最適化し、ユニットアライメントと相対的重要スケーリングを同時に行う。
論文 参考訳(メタデータ) (2024-10-30T11:19:10Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Towards stable real-world equation discovery with assessing
differentiating quality influence [52.2980614912553]
一般的に用いられる有限差分法に代わる方法を提案する。
我々は,これらの手法を実問題と類似した問題に適用可能であること,および方程式発見アルゴリズムの収束性を確保する能力の観点から評価する。
論文 参考訳(メタデータ) (2023-11-09T23:32:06Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - An Evolutionary Correlation-aware Feature Selection Method for
Classification Problems [3.2550305883611244]
本稿では,3つの目標を達成するために分布推定アルゴリズムを提案する。
第一に、EDAの拡張として、適合度関数に基づいて競合する各イテレーションにおいて、提案手法は2つの個人しか生成しない。
第二に、各イテレーションにおける個人の機能数を決定するためのガイド技術を提供する。
本論文の主な貢献として,各特徴の重要さだけでなく,特徴間の相互作用についても考察できる。
論文 参考訳(メタデータ) (2021-10-16T20:20:43Z) - Employing an Adjusted Stability Measure for Multi-Criteria Model Fitting
on Data Sets with Similar Features [0.1127980896956825]
提案手法は,2つの確立したアプローチと比較して,同じあるいはより良い予測性能が得られることを示す。
このアプローチでは、関係のない機能や冗長な機能を避けながら、関連する機能を選択することに成功しています。
多くの類似した特徴を持つデータセットの場合、特徴選択安定性は調整された安定性尺度で評価されなければならない。
論文 参考訳(メタデータ) (2021-06-15T12:48:07Z) - BayesIMP: Uncertainty Quantification for Causal Data Fusion [52.184885680729224]
本研究では,複数の因果グラフに関連するデータセットを組み合わせ,対象変数の平均処理効果を推定する因果データ融合問題について検討する。
本稿では、確率積分とカーネル平均埋め込みのアイデアを組み合わせて、再生されたカーネルヒルベルト空間における干渉分布を表現するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-07T10:14:18Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - The best way to select features? [0.0]
MDA、LIME、SHAPの3つの特徴選択アルゴリズムを比較する。
LIME は MDA よりも安定しており、最低でも SHAP と同程度安定している。
論文 参考訳(メタデータ) (2020-05-26T02:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。