論文の概要: Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining
- arxiv url: http://arxiv.org/abs/2006.09467v1
- Date: Tue, 16 Jun 2020 19:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:35:14.055866
- Title: Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining
- Title(参考訳): 知らないことを伝える:反復的なデータマイニングのためのランダム化戦略
- Authors: Sami Hanhij\"arvi, Markus Ojala, Niko Vuokko, Kai Puolam\"aki, Nikolaj
Tatti, Heikki Mannila
- Abstract要約: 我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。
本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
- 参考スコア(独自算出の注目度): 0.6100370338020054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a wide variety of data mining methods available, and it is generally
useful in exploratory data analysis to use many different methods for the same
dataset. This, however, leads to the problem of whether the results found by
one method are a reflection of the phenomenon shown by the results of another
method, or whether the results depict in some sense unrelated properties of the
data. For example, using clustering can give indication of a clear cluster
structure, and computing correlations between variables can show that there are
many significant correlations in the data. However, it can be the case that the
correlations are actually determined by the cluster structure.
In this paper, we consider the problem of randomizing data so that previously
discovered patterns or models are taken into account. The randomization methods
can be used in iterative data mining. At each step in the data mining process,
the randomization produces random samples from the set of data matrices
satisfying the already discovered patterns or models. That is, given a data set
and some statistics (e.g., cluster centers or co-occurrence counts) of the
data, the randomization methods sample data sets having similar values of the
given statistics as the original data set. We use Metropolis sampling based on
local swaps to achieve this. We describe experiments on real data that
demonstrate the usefulness of our approach. Our results indicate that in many
cases, the results of, e.g., clustering actually imply the results of, say,
frequent pattern discovery.
- Abstract(参考訳): さまざまなデータマイニング手法が利用可能であり、探索的なデータ分析において、同じデータセットに多くの異なる方法を使用するのが一般的である。
しかし、ある方法によって得られた結果が別の方法の結果によって示される現象の反映であるかどうか、あるいはある意味無関係な性質で表されるのかという問題を引き起こす。
例えば、クラスタリングを使用することで、明確なクラスタ構造を示すことができ、変数間の計算相関は、データに多くの重要な相関関係があることを示せる。
しかし、相関が実際にクラスター構造によって決定される場合も考えられる。
本稿では,以前に発見されたパターンやモデルを考慮に入れるために,データをランダム化する問題を考える。
ランダム化法は反復的なデータマイニングに利用できる。
データマイニングプロセスの各ステップにおいて、ランダム化は、既に発見されたパターンやモデルを満たす一連のデータ行列からランダムなサンプルを生成する。
すなわち、データセットといくつかの統計値(例えばクラスタセンターや共起数)が与えられた場合、ランダム化手法は、与えられた統計値と元のデータセットとの類似値を持つデータセットをサンプリングする。
ローカルスワップに基づくメトロポリスサンプリングを用いてこれを実現する。
本手法の有用性を示す実データ実験について述べる。
その結果、多くの場合、例えば、クラスタリングの結果は、例えば、頻繁なパターン発見の結果を意味することが示されています。
関連論文リスト
- Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Bayesian data combination model with Gaussian process latent variable
model for mixed observed variables under NMAR missingness [0.0]
興味のある変数を同時に観測する「(準)単一ソースデータセット」を得ることは困難である。
これらのデータセットは、変数が不足した単一ソースデータセットとして利用する必要がある。
本稿では,データセットが同種であると仮定しないデータ融合法を提案する。
論文 参考訳(メタデータ) (2021-09-01T16:09:55Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。