論文の概要: Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection
- arxiv url: http://arxiv.org/abs/2201.13194v3
- Date: Mon, 3 Apr 2023 04:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 01:43:23.452591
- Title: Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection
- Title(参考訳): コンパクト性スコア:教師なし特徴選択のための高速フィルタ法
- Authors: Peican Zhu, Xin Hou, Keke Tang, Zhen Wang, Feiping Nie
- Abstract要約: 本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
- 参考スコア(独自算出の注目度): 66.84571085643928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Along with the flourish of the information age, massive amounts of data are
generated day by day. Due to the large-scale and high-dimensional
characteristics of these data, it is often difficult to achieve better
decision-making in practical applications. Therefore, an efficient big data
analytics method is urgently needed. For feature engineering, feature selection
seems to be an important research content in which is anticipated to select
"excellent" features from candidate ones. Different functions can be realized
through feature selection, such as dimensionality reduction, model effect
improvement, and model performance improvement. In many classification tasks,
researchers found that data seem to be usually close to each other if they are
from the same class; thus, local compactness is of great importance for the
evaluation of a feature. In this manuscript, we propose a fast unsupervised
feature selection method, named as, Compactness Score (CSUFS), to select
desired features. To demonstrate the efficiency and accuracy, several data sets
are chosen with extensive experiments being performed. Later, the effectiveness
and superiority of our method are revealed through addressing clustering tasks.
Here, the performance is indicated by several well-known evaluation metrics,
while the efficiency is reflected by the corresponding running time. As
revealed by the simulation results, our proposed algorithm seems to be more
accurate and efficient compared with existing algorithms.
- Abstract(参考訳): 情報時代の繁栄とともに、大量のデータが日々生成される。
これらのデータの大規模かつ高次元的な特性のため、実用的なアプリケーションにおいてより良い意思決定をすることがしばしば困難である。
そのため,効率的なビッグデータ分析手法が必要である。
特徴工学においては、特徴選択は、候補から優れた特徴を選択することが期待される重要な研究内容であると考えられる。
次元の縮小、モデル効果の改善、モデル性能の向上など、機能選択によって異なる機能を実現することができる。
多くの分類タスクにおいて、研究者は、同じクラスに属している場合、データが互いに近接しているように見えるので、局所的コンパクト性は特徴を評価する上で非常に重要であることを発見した。
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
効率と精度を示すために、広範囲な実験を行い、いくつかのデータセットが選択される。
その後,クラスタリングタスクに対処し,提案手法の有効性と優位性を明らかにする。
ここで、パフォーマンスはいくつかのよく知られた評価指標で示され、効率は対応する実行時間によって反映される。
シミュレーション結果から明らかになったように,提案アルゴリズムは既存のアルゴリズムよりも正確かつ効率的であると考えられる。
関連論文リスト
- Large-scale Multi-objective Feature Selection: A Multi-phase Search Space Shrinking Approach [0.27624021966289597]
特徴の選択は、特に高次元データセットにおいて、機械学習において重要なステップである。
本稿では,LMSSSと呼ばれる探索空間の縮小に基づく大規模多目的進化アルゴリズムを提案する。
提案アルゴリズムの有効性は、15の大規模データセットに対する包括的実験によって実証される。
論文 参考訳(メタデータ) (2024-10-13T23:06:10Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Fast Classification with Sequential Feature Selection in Test Phase [1.1470070927586016]
本稿では,分類のための能動的特徴獲得のための新しいアプローチを提案する。
最適な予測性能を達成するために、最も情報性の高い機能のサブセットを順次選択する作業である。
提案手法では,既存の手法に比べてはるかに高速で効率の良い新しい遅延モデルが提案されている。
論文 参考訳(メタデータ) (2023-06-25T21:31:46Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z) - IVFS: Simple and Efficient Feature Selection for High Dimensional
Topology Preservation [33.424663018395684]
本稿では,サンプル類似性保存を向上する簡易かつ効果的な特徴選択アルゴリズムを提案する。
提案アルゴリズムは、全データの対距離と位相パターンを適切に保存することができる。
論文 参考訳(メタデータ) (2020-04-02T23:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。