論文の概要: On the (In)Significance of Feature Selection in High-Dimensional Datasets
- arxiv url: http://arxiv.org/abs/2508.03593v1
- Date: Tue, 05 Aug 2025 15:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.061826
- Title: On the (In)Significance of Feature Selection in High-Dimensional Datasets
- Title(参考訳): 高次元データセットにおける特徴選択の意義について
- Authors: Bhavesh Neekhra, Debayan Gupta, Partha Pratim Chakravarti,
- Abstract要約: 本研究では,ランダムに選択した特徴を用いたヌル仮説をFSアルゴリズムで選択した特徴と比較する。
その結果,分類作業における高次元データセット(特に遺伝子発現)上のFSは有用ではないことがわかった。
- 参考スコア(独自算出の注目度): 0.5266869303483376
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Extensive research has been done on feature selection (FS) algorithms for high-dimensional datasets aiming to improve model performance, reduce computational cost and identify features of interest. We test the null hypothesis of using randomly selected features to compare against features selected by FS algorithms to validate the performance of the latter. Our results show that FS on high-dimensional datasets (in particular gene expression) in classification tasks is not useful. We find that (1) models trained on small subsets (0.02%-1% of all features) of randomly selected features almost always perform comparably to those trained on all features, and (2) a "typical"- sized random subset provides comparable or superior performance to that of top-k features selected in various published studies. Thus, our work challenges many feature selection results on high dimensional datasets, particularly in computational genomics. It raises serious concerns about studies that propose drug design or targeted interventions based on computationally selected genes, without further validation in a wet lab.
- Abstract(参考訳): モデル性能の向上,計算コストの削減,興味のある特徴の同定を目的とした,高次元データセットの特徴選択(FS)アルゴリズムに関する大規模な研究が行われている。
本研究では,ランダムに選択した特徴を用いたヌル仮説をFSアルゴリズムで選択した特徴と比較し,後者の性能を検証した。
その結果,分類作業における高次元データセット(特に遺伝子発現)上のFSは有用ではないことがわかった。
その結果,(1) ランダムに選択された特徴の小さなサブセット(全特徴の0.02%-1%)で訓練されたモデルでは,ほぼ常にすべての特徴で訓練されたサブセットと互換性があり,(2) 「典型的」サイズのランダムサブセットは,様々な研究で選択されたトップk機能と同等ないし優れた性能を提供することがわかった。
そこで本研究は,高次元データセット,特に計算ゲノミクスにおいて,多くの特徴選択結果に挑戦する。
これは、湿式実験室でさらなる検証を行うことなく、計算によって選択された遺伝子に基づく薬物設計や標的となる介入を提案する研究に対して深刻な懸念を提起する。
関連論文リスト
- Optimised Feature Subset Selection via Simulated Annealing [39.58317527488534]
本稿では,$ell_0$-norm特徴選択のための新しいアルゴリズムであるSA-FDRを紹介する。
SA-FDRは、高い予測精度を達成しつつ、よりコンパクトな特徴部分集合を一貫して選択することを示す。
その結果、SA-FDRは高次元設定で解釈可能なモデルを設計するための柔軟で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-31T13:57:38Z) - Permutation-based multi-objective evolutionary feature selection for high-dimensional data [43.18726655647964]
本稿では,高次元データを対象とした新しい特徴選択手法を提案する。
提案手法は多目的進化アルゴリズムを用いて候補特徴部分集合を探索する。
提案手法の有効性を,24個の高次元データセットを用いて検証した。
論文 参考訳(メタデータ) (2025-01-24T08:11:28Z) - TAROT: Targeted Data Selection via Optimal Transport [64.56083922130269]
TAROTは最適な輸送理論に基づくデータ選択フレームワークである。
従来のターゲットデータ選択手法は、ドメイン固有のパフォーマンスを高めるために影響に基づく欲求に依存していた。
我々は,意味的セグメンテーション,動作予測,命令チューニングなど,複数のタスクにわたるTAROTを評価する。
論文 参考訳(メタデータ) (2024-11-30T10:19:51Z) - Large-scale Multi-objective Feature Selection: A Multi-phase Search Space Shrinking Approach [0.27624021966289597]
特徴の選択は、特に高次元データセットにおいて、機械学習において重要なステップである。
本稿では,LMSSSと呼ばれる探索空間の縮小に基づく大規模多目的進化アルゴリズムを提案する。
提案アルゴリズムの有効性は、15の大規模データセットに対する包括的実験によって実証される。
論文 参考訳(メタデータ) (2024-10-13T23:06:10Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Utilizing Semantic Textual Similarity for Clinical Survey Data Feature
Selection [4.5574502769585745]
調査データから結果を予測する機械学習モデルは、過度に適合し、結果として一般化性が低下する可能性がある。
この機能の選択は、学習する機能の最適なサブセットを選択しようとするものだ。
特徴名と対象名の関係を言語モデル(LM)を用いて評価し,意味的テキスト類似度(STS)スコアを生成する。
STSを用いて最小冗長-最大関連性(mRMR)アルゴリズムで特徴を直接選択する性能について検討する。
論文 参考訳(メタデータ) (2023-08-19T03:10:51Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - A-SFS: Semi-supervised Feature Selection based on Multi-task
Self-supervision [1.3190581566723918]
機能選択問題に深層学習に基づく自己教師機構を導入する。
バッチベースの特徴選択パターンに従って特徴量を生成するために、バッチアテンション機構が設計されている。
実験の結果,ほとんどのデータセットにおいてA-SFSが最も精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-07-19T04:22:27Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Sparse Centroid-Encoder: A Nonlinear Model for Feature Selection [1.2487990897680423]
我々はCentro Sparseid-Encoderと呼ばれる非線形データ削減と可視化のためのCentroid-Encoderのスパース実装を開発した。
また、各特徴をその発生によってランク付けする特徴選択フレームワークも提供し、検証セットを用いて最適な特徴数を選択する。
このアルゴリズムは、単細胞生物データ、高次元感染症データ、ハイパースペクトルデータ、画像データ、音声データを含む幅広いデータセットに適用される。
論文 参考訳(メタデータ) (2022-01-30T20:46:24Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Elastic Net based Feature Ranking and Selection [9.289190508925875]
直感的なアイデアは、データ分割と弾性ネットベースの機能選択の複数回の終わりに置かれます。
選択された特徴の頻度に関係し、特徴の重要性を示す指標として周波数を使用する。
elastic netとの競争力や優れたパフォーマンスを実現し、より少ない機能の一貫した選択を実現します。
論文 参考訳(メタデータ) (2020-12-30T00:08:36Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z) - Infinite Feature Selection: A Graph-based Feature Filtering Approach [78.63188057505012]
グラフ内の経路として特徴のサブセットを考慮したフィルタリング機能選択フレームワークを提案する。
無限に進むことで、選択プロセスの計算複雑性を制限できる。
Inf-FSはほとんどどんな状況でも、つまり、保持するフィーチャの数が優先順位に固定されているときに、より良く振る舞うことを示す。
論文 参考訳(メタデータ) (2020-06-15T07:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。