論文の概要: Positive region preserved random sampling: an efficient feature selection method for massive data
- arxiv url: http://arxiv.org/abs/2507.01998v1
- Date: Tue, 01 Jul 2025 09:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:14.971281
- Title: Positive region preserved random sampling: an efficient feature selection method for massive data
- Title(参考訳): 正の領域保存ランダムサンプリング--大規模データの効率的な特徴選択法
- Authors: Hexiang Bai, Deyu Li, Jiye Liang, Yanhui Zhai,
- Abstract要約: 本稿では,サンプリング手法と粗設定理論に基づく新しい手法を開発し,大規模データの特徴選択の課題に対処する。
以上の結果から, ほぼほぼ短い期間でレダクトが検出でき, 最終レダクトの識別能力は推定下限よりも大きいことがわかった。
- 参考スコア(独自算出の注目度): 20.69066235862543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting relevant features is an important and necessary step for intelligent machines to maximize their chances of success. However, intelligent machines generally have no enough computing resources when faced with huge volume of data. This paper develops a new method based on sampling techniques and rough set theory to address the challenge of feature selection for massive data. To this end, this paper proposes using the ratio of discernible object pairs to all object pairs that should be distinguished to measure the discriminatory ability of a feature set. Based on this measure, a new feature selection method is proposed. This method constructs positive region preserved samples from massive data to find a feature subset with high discriminatory ability. Compared with other methods, the proposed method has two advantages. First, it is able to select a feature subset that can preserve the discriminatory ability of all the features of the target massive data set within an acceptable time on a personal computer. Second, the lower boundary of the probability of the object pairs that can be discerned using the feature subset selected in all object pairs that should be distinguished can be estimated before finding reducts. Furthermore, 11 data sets of different sizes were used to validate the proposed method. The results show that approximate reducts can be found in a very short period of time, and the discriminatory ability of the final reduct is larger than the estimated lower boundary. Experiments on four large-scale data sets also showed that an approximate reduct with high discriminatory ability can be obtained in reasonable time on a personal computer.
- Abstract(参考訳): 関連する機能を選択することは、インテリジェントマシンが成功の可能性を最大化するための重要かつ必要なステップである。
しかし、インテリジェントマシンは、大量のデータに直面した場合、一般的に十分な計算資源を持っていない。
本稿では,サンプリング手法と粗設定理論に基づく新しい手法を開発し,大規模データの特徴選択の課題に対処する。
そこで本研究では,特徴集合の識別能力を測定するために区別すべき対象対に対して,識別可能な対象対の比率を用いることを提案する。
この尺度に基づいて,新しい特徴選択法を提案する。
本手法は, 大規模データから正の領域保存サンプルを構築し, 識別能力の高い特徴サブセットを求める。
他の手法と比較して,提案手法には2つの利点がある。
まず、パーソナルコンピュータ上で許容時間内にターゲットとする大規模データセットの全ての特徴の識別能力を維持できる機能サブセットを選択することができる。
第二に、区別すべき全てのオブジェクト対の中から選択された特徴部分集合を用いて識別できるオブジェクト対の確率の低い境界を、レダクトを見つける前に推定することができる。
さらに,提案手法を検証するために,11個の異なるサイズのデータセットを用いた。
以上の結果から, ほぼほぼ短い期間でレダクトが検出でき, 最終レダクトの識別能力は推定下限よりも大きいことがわかった。
4つの大規模データセットの実験により、パソコン上で、識別能力の高い近似リダクトが妥当な時間で得られることを示した。
関連論文リスト
- TAROT: Targeted Data Selection via Optimal Transport [64.56083922130269]
TAROTは最適な輸送理論に基づくデータ選択フレームワークである。
従来のターゲットデータ選択手法は、ドメイン固有のパフォーマンスを高めるために影響に基づく欲求に依存していた。
我々は,意味的セグメンテーション,動作予測,命令チューニングなど,複数のタスクにわたるTAROTを評価する。
論文 参考訳(メタデータ) (2024-11-30T10:19:51Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Multi-objective Binary Coordinate Search for Feature Selection [0.24578723416255746]
大規模特徴選択問題の解法として,二元多目的座標探索(MOCS)アルゴリズムを提案する。
その結果,実世界の5つの大規模データセットにおいて,NSGA-IIよりも提案手法が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-20T00:50:26Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。
次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。
最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文 参考訳(メタデータ) (2020-08-07T05:18:58Z) - IVFS: Simple and Efficient Feature Selection for High Dimensional
Topology Preservation [33.424663018395684]
本稿では,サンプル類似性保存を向上する簡易かつ効果的な特徴選択アルゴリズムを提案する。
提案アルゴリズムは、全データの対距離と位相パターンを適切に保存することができる。
論文 参考訳(メタデータ) (2020-04-02T23:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。