論文の概要: Feature Selection from High-Dimensional Data with Very Low Sample Size:
A Cautionary Tale
- arxiv url: http://arxiv.org/abs/2008.12025v1
- Date: Thu, 27 Aug 2020 10:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:18:19.783559
- Title: Feature Selection from High-Dimensional Data with Very Low Sample Size:
A Cautionary Tale
- Title(参考訳): 非常に低いサンプルサイズを持つ高次元データからの特徴選択:注意物語
- Authors: Ludmila I. Kuncheva, Clare E. Matthews, \'Alvar Arnaiz-Gonz\'alez,
Juan J. Rodr\'iguez
- Abstract要約: 分類問題において、特徴選択の目的は、元の特徴集合の小さな部分集合を特定することである。
本研究は,このような事例における特徴選択がなぜ望ましくない結果をもたらすかを示す,注意深い物語である。
- 参考スコア(独自算出の注目度): 1.491109220586182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In classification problems, the purpose of feature selection is to identify a
small, highly discriminative subset of the original feature set. In many
applications, the dataset may have thousands of features and only a few dozens
of samples (sometimes termed `wide'). This study is a cautionary tale
demonstrating why feature selection in such cases may lead to undesirable
results. In view to highlight the sample size issue, we derive the required
sample size for declaring two features different. Using an example, we
illustrate the heavy dependency between feature set and classifier, which poses
a question to classifier-agnostic feature selection methods. However, the
choice of a good selector-classifier pair is hampered by the low correlation
between estimated and true error rate, as illustrated by another example. While
previous studies raising similar issues validate their message with mostly
synthetic data, here we carried out an experiment with 20 real datasets. We
created an exaggerated scenario whereby we cut a very small portion of the data
(10 instances per class) for feature selection and used the rest of the data
for testing. The results reinforce the caution and suggest that it may be
better to refrain from feature selection from very wide datasets rather than
return misleading output to the user.
- Abstract(参考訳): 分類問題において、特徴選択の目的は、元の特徴集合の小さな、非常に識別的な部分集合を特定することである。
多くのアプリケーションでは、データセットには数千のフィーチャと数十のサンプル(時には 'wide' と呼ばれる)しかありません。
このような場合の特徴選択がなぜ望ましくない結果をもたらすかを示す注意深い物語である。
サンプルサイズの問題を強調するためには、2つの特徴を区別するために必要なサンプルサイズを導出する。
例として,特徴集合と分類器の依存性を例に挙げ,分類器に依存しない特徴選択法に疑問を呈する。
しかし、他の例で示すように、優れたセレクタ-クラシファイアペアの選択は、推定値と真の誤差率との相関が低いことで妨げられる。
同様の問題を提起する以前の研究では、ほとんどが合成データでメッセージを検証しているが、ここでは20の実際のデータセットを用いて実験を行った。
私たちは大げさなシナリオを作り、機能選択のためにデータのごく一部(クラス毎に10インスタンス)をカットし、残りのデータをテストに使用しました。
結果は警告を強化し、誤解を招く出力をユーザに返すよりも、非常に広いデータセットからの機能選択を控えた方がよい、と示唆している。
関連論文リスト
- Unsupervised Feature Selection Algorithm Based on Dual Manifold Re-ranking [5.840228332438659]
本稿では,2次多様体再ランク付け(DMRR)に基づく教師なし特徴選択アルゴリズムを提案する。
異なる類似度行列は、サンプル間、サンプル間、特徴間、特徴間の多様体構造を記述するために構築される。
DMRRを3つの教師なし特徴選択アルゴリズムと2つの教師なし特徴選択後処理アルゴリズムと比較することにより、異なるサンプルの重要性情報と、より優れた特徴選択を実現するために、サンプルと特徴の二重関係が有用であることを確認した。
論文 参考訳(メタデータ) (2024-10-27T09:29:17Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Few-shot Learning for Unsupervised Feature Selection [59.75321498170363]
教師なし特徴選択のための数ショット学習法を提案する。
提案手法では,未ラベルのターゲットインスタンスがいくつかある場合,対象タスクで関連する特徴のサブセットを選択することができる。
提案手法が既存の特徴選択法より優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T03:52:51Z) - Probabilistic Value Selection for Space Efficient Model [10.109875612945658]
情報理論の計量に基づく2つの確率的手法が提案されている: PVS と P + VS。
実験結果から,値選択は精度とモデルサイズ削減のバランスがとれることがわかった。
論文 参考訳(メタデータ) (2020-07-09T08:45:13Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。