論文の概要: The UU-test for Statistical Modeling of Unimodal Data
- arxiv url: http://arxiv.org/abs/2008.12537v2
- Date: Thu, 9 Sep 2021 15:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:29:11.154577
- Title: The UU-test for Statistical Modeling of Unimodal Data
- Title(参考訳): ユニモーダルデータの統計的モデリングのためのUUテスト
- Authors: Paraskevi Chasani and Aristidis Likas
- Abstract要約: 一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deciding on the unimodality of a dataset is an important problem in data
analysis and statistical modeling. It allows to obtain knowledge about the
structure of the dataset, ie. whether data points have been generated by a
probability distribution with a single or more than one peaks. Such knowledge
is very useful for several data analysis problems, such as for deciding on the
number of clusters and determining unimodal projections. We propose a technique
called UU-test (Unimodal Uniform test) to decide on the unimodality of a
one-dimensional dataset. The method operates on the empirical cumulative
density function (ecdf) of the dataset. It attempts to build a piecewise linear
approximation of the ecdf that is unimodal and models the data sufficiently in
the sense that the data corresponding to each linear segment follows the
uniform distribution. A unique feature of this approach is that in the case of
unimodality, it also provides a statistical model of the data in the form of a
Uniform Mixture Model. We present experimental results in order to assess the
ability of the method to decide on unimodality and perform comparisons with the
well-known dip-test approach. In addition, in the case of unimodal datasets we
evaluate the Uniform Mixture Models provided by the proposed method using the
test set log-likelihood and the two-sample Kolmogorov-Smirnov (KS) test.
- Abstract(参考訳): データセットのユニモダリティの決定は、データ分析と統計モデリングにおいて重要な問題である。
これにより、データセットの構造に関する知識を得ることができる。
データポイントが1つ以上のピークを持つ確率分布によって生成されるかどうか。
このような知識は、クラスタ数の決定や一様射影の決定など、いくつかのデータ解析問題に非常に有用である。
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
この方法は、データセットの経験的累積密度関数(ecdf)で動作する。
これは、単調なecdfの断片的に線形近似を構築し、各線形セグメントに対応するデータが一様分布に従うという意味で十分にデータをモデル化しようとする。
このアプローチのユニークな特徴は、ユニモダリティの場合、一様混合モデルという形でデータの統計モデルも提供することである。
本研究は,一様性を決定する手法の評価と,よく知られたディップテスト手法との比較を行うための実験結果である。
また,一様データセットの場合,テスト集合log-likelihood と 2-sample kolmogorov-smirnov (ks) テストを用いて,提案手法による一様混合モデルを評価する。
関連論文リスト
- Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Empirical Density Estimation based on Spline Quasi-Interpolation with
applications to Copulas clustering modeling [0.0]
密度推定は、様々な分野において、基礎となるデータの分布をモデル化し理解するための基礎的な手法である。
本稿では,擬似補間による密度の単変量近似を提案する。
提案アルゴリズムは人工データセットと実データセットで検証される。
論文 参考訳(メタデータ) (2024-02-18T11:49:38Z) - PQMass: Probabilistic Assessment of the Quality of Generative Models
using Probability Mass Estimation [8.527898482146103]
生成モデルの品質を評価するための包括的サンプルベース手法を提案する。
提案手法により,同じ分布から2組のサンプルが引き出される確率を推定できる。
論文 参考訳(メタデータ) (2024-02-06T19:39:26Z) - A Multivariate Unimodality Test Harnessing the Dip Statistic of Mahalanobis Distances Over Random Projections [0.18416014644193066]
線形ランダムプロジェクションとポイント・ツー・ポイント・ディスタンシングにより、一次元の一様性原理を多次元空間に拡張する。
我々の手法は$alpha$-unimodalityの仮定に根ざし、泥ッドと呼ばれる新しい一様性試験を提示する。
理論的および実証的研究は,多次元データセットの一様性評価における本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-11-28T09:11:02Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - A Subsampling-Based Method for Causal Discovery on Discrete Data [18.35147325731821]
本研究では,原因発生方式とメカニズムの独立性をテストするためのサブサンプリング方式を提案する。
我々の手法は、離散データと分類データの両方で機能し、データ上の機能的モデルを含まないため、より柔軟なアプローチである。
論文 参考訳(メタデータ) (2021-08-31T17:11:58Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。