論文の概要: Selecting Features by their Resilience to the Curse of Dimensionality
- arxiv url: http://arxiv.org/abs/2304.02455v2
- Date: Mon, 17 Apr 2023 11:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 20:17:26.529846
- Title: Selecting Features by their Resilience to the Curse of Dimensionality
- Title(参考訳): 次元の呪いに対する回復力による特徴の選択
- Authors: Maximilian Stubbemann, Tobias Hille, Tom Hanika
- Abstract要約: 実世界のデータセットは、しばしば高次元であり、次元性の呪いによって影響される。
ここでは、異なるサイズのデータサブセットを識別できる特徴を識別する新しい手法について述べる。
実験の結果,提案手法は競争力があり,確立された特徴選択法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world datasets are often of high dimension and effected by the curse of
dimensionality. This hinders their comprehensibility and interpretability. To
reduce the complexity feature selection aims to identify features that are
crucial to learn from said data. While measures of relevance and pairwise
similarities are commonly used, the curse of dimensionality is rarely
incorporated into the process of selecting features. Here we step in with a
novel method that identifies the features that allow to discriminate data
subsets of different sizes. By adapting recent work on computing intrinsic
dimensionalities, our method is able to select the features that can
discriminate data and thus weaken the curse of dimensionality. Our experiments
show that our method is competitive and commonly outperforms established
feature selection methods. Furthermore, we propose an approximation that allows
our method to scale to datasets consisting of millions of data points. Our
findings suggest that features that discriminate data and are connected to a
low intrinsic dimensionality are meaningful for learning procedures.
- Abstract(参考訳): 現実世界のデータセットは、しばしば高次元であり、次元の呪いによって影響される。
これにより、理解性や解釈性が損なわれる。
複雑さを減らすために、機能選択は、そのデータから学ぶのに不可欠な機能を特定することを目的としている。
関連性の尺度や対関係の類似性は一般的に用いられるが、次元の呪いが特徴の選択プロセスに組み込まれることは稀である。
ここでは,異なるサイズのデータサブセットを識別可能な特徴を識別する新しい手法を提案する。
近年の研究を本質的次元の計算に適応させることで,データを識別できる特徴を選択できるため,次元の呪いを弱めることができる。
実験の結果,提案手法は競争力があり,確立された特徴選択法よりも優れていた。
さらに,本手法を何百万ものデータポイントからなるデータセットに拡張可能な近似法を提案する。
本研究は,データを識別し,低固有次元に関連付ける特徴が学習過程に有意であることを示す。
関連論文リスト
- Automatic feature selection and weighting using Differentiable Information Imbalance [41.452380773977154]
本稿では,特徴集合間で情報内容のランク付けを行う自動データ解析手法DIIを紹介する。
地上の真理特徴空間における距離に応じて最も近い隣人に基づいて、入力特徴量の低次元部分集合を求める。
識別可能な情報不均衡を損失関数として利用することにより、入力の相対的特徴重みを最適化し、ユニットアライメントと相対的重要スケーリングを同時に行う。
論文 参考訳(メタデータ) (2024-10-30T11:19:10Z) - Feature Selection from Differentially Private Correlations [35.187113265093615]
高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:54:07Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Relative intrinsic dimensionality is intrinsic to learning [49.5738281105287]
本稿では,データ分布の固有次元の概念を導入し,データの分離性特性を正確に把握する。
この本質的な次元に対して、上の親指の規則は法則となり、高本質的な次元は高度に分離可能なデータを保証する。
本稿では,2進分類問題における学習と一般化の確率について,上界と下界の両方に相対固有次元を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T10:41:45Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。
次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。
最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文 参考訳(メタデータ) (2020-08-07T05:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。