論文の概要: A Novel Data Pre-processing Technique: Making Data Mining Robust to
Different Units and Scales of Measurement
- arxiv url: http://arxiv.org/abs/2111.04253v1
- Date: Mon, 8 Nov 2021 03:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 01:01:07.950349
- Title: A Novel Data Pre-processing Technique: Making Data Mining Robust to
Different Units and Scales of Measurement
- Title(参考訳): 新しいデータ前処理手法:異なる単位と測定尺度にロバストなデータマイニングを実現する
- Authors: Arbind Agrahari Baniya, Sunil Aryal and Santosh KC
- Abstract要約: 複数のサブサンプルデータに対するランクに基づく,より優れた,効果的な代替手段を提案する。
我々の経験的結果は、ARESがより一貫したタスクに固有の結果をもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many existing data mining algorithms use feature values directly in their
model, making them sensitive to units/scales used to measure/represent data.
Pre-processing of data based on rank transformation has been suggested as a
potential solution to overcome this issue. However, the resulting data after
pre-processing with rank transformation is uniformly distributed, which may not
be very useful in many data mining applications. In this paper, we present a
better and effective alternative based on ranks over multiple sub-samples of
data. We call the proposed pre-processing technique as ARES | Average Rank over
an Ensemble of Sub-samples. Our empirical results of widely used data mining
algorithms for classification and anomaly detection in a wide range of data
sets suggest that ARES results in more consistent task specific? outcome across
various algorithms and data sets. In addition to this, it results in better or
competitive outcome most of the time compared to the most widely used min-max
normalisation and the traditional rank transformation.
- Abstract(参考訳): 既存のデータマイニングアルゴリズムの多くは、モデルで機能値を直接使用しており、データの測定や表現に使用される単位/尺度に敏感である。
ランク変換に基づくデータの前処理は、この問題を克服するための潜在的な解決策として提案されている。
しかし、ランク変換による前処理後のデータは均一に分散しており、多くのデータマイニングアプリケーションではあまり役に立たない。
本稿では,複数のサブサンプルデータに対するランクに基づく,より優れた,効果的な代替手段を提案する。
提案手法をars | average rank over a ensemble of sub-samples と呼ぶ。
広範囲なデータセットの分類と異常検出に広く用いられているデータマイニングアルゴリズムの実証結果から、ARESがより一貫したタスク特異性をもたらすことが示唆されている。
様々なアルゴリズムとデータセットにまたがる結果。
これに加えて、最も広く使われているmin-max正規化や伝統的なランク変換と比べて、ほとんどの時間において優れた、または競争的な結果をもたらす。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Enabling clustering algorithms to detect clusters of varying densities
through scale-invariant data preprocessing [5.116665993717368]
本稿では,「サブサンプルのアンサンブル上の平均ランク」と呼ばれる,ランク変換の変種を用いた事前処理により,クラスタリングアルゴリズムがデータの表現に頑健であることを示す。
最も広く使われている3つのクラスタリングアルゴリズムを用いて得られた実験結果から、ARES変換後のクラスタリングがより良く、より一貫性のある結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-01-21T04:51:15Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Domain Generalization by Rejecting Extreme Augmentations [13.114457707388283]
ドメイン外およびドメインの一般化設定では、データ拡張が顕著で堅牢なパフォーマンス向上をもたらすことを示す。
i)標準データ拡張変換の均一サンプリング,(ii)ドメイン外での作業において期待される高いデータ分散を考慮した強度変換,(iii)トレーニングを損なうような極端な変換を拒否する新たな報酬関数を考案する,という簡単なトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-10-10T14:46:22Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。
このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。
本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2020-07-11T21:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。