Fugu-MT 論文翻訳(概要): Model-based clustering of partial records

論文の概要: Model-based clustering of partial records

arxiv url: http://arxiv.org/abs/2103.16336v1
Date: Tue, 30 Mar 2021 13:30:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-31 15:04:32.102342
Title: Model-based clustering of partial records
Title（参考訳）: 部分レコードのモデルベースクラスタリング
Authors: Emily M. Goren and Ranjan Maitra
Abstract要約: 観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
参考スコア（独自算出の注目度）: 11.193504036335503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Partially recorded data are frequently encountered in many applications. In practice, such datasets are usually clustered by removing incomplete cases or features with missing values, or by imputing missing values, followed by application of a clustering algorithm to the resulting altered data set. Here, we develop clustering methodology through a model-based approach using the marginal density for the observed values, using a finite mixture model of multivariate $t$ distributions. We compare our algorithm to the corresponding full expectation-maximization (EM) approach that considers the missing values in the incomplete data set and makes a missing at random (MAR) assumption, as well as case deletion and imputation. Since only the observed values are utilized, our approach is computationally more efficient than imputation or full EM. Simulation studies demonstrate that our approach has favorable recovery of the true cluster partition compared to case deletion and imputation under various missingness mechanisms, and is more robust to extreme MAR violations than the full EM approach since it does not use the observed values to inform those that are missing. Our methodology is demonstrated on a problem of clustering gamma-ray bursts and is implemented in the https://github.com/emilygoren/MixtClust R package.
Abstract（参考訳）: 部分的に記録されたデータは、多くのアプリケーションで頻繁に発生する。実際には、そのようなデータセットは、通常、欠落した値を持つ不完全なケースや特徴を取り除くか、または欠落した値を示すことによってクラスタ化される。本稿では,多変量$t$分布の有限混合モデルを用いて,観測値の限界密度を用いたモデルに基づくクラスタリング手法を開発した。提案手法は,不完全データセットの欠落値を考慮し,ランダム(mar)仮定で欠落させ,ケース削除やインプテーションを行う,対応する完全期待最大化(em)手法と比較する。観測値のみを利用するので,本手法はインプテーションやフルemよりも計算効率が高い。シミュレーション研究により, 本手法は, 種々の欠失機構下でのケース削除やインプットに比べ, 真のクラスタ分割の回復に有利であり, 検出値を使用しないため, 完全EM法よりも極端にMAR違反に対して頑健であることが示された。提案手法はガンマ線バーストのクラスタリングの問題に対して実証され,https://github.com/emilygoren/MixtClust Rパッケージに実装されている。

関連論文リスト

Causal Effect Estimation with TMLE: Handling Missing Data and Near-Violations of Positivity [1.1546538067103258]
欠損データシナリオにおける平均処理効果を推定する目的最大推定(TMLE)の性能を評価する。我々はモデルと設計に基づくシミュレーションを採用し、後者は'WASHベネフィットバングラデシュ'データセット上で、アンダースムースな高度適応型ラッソを用いています。解析手法としてTMLEと組み合わせて8つの欠落データ手法を比較し,非多重命令法(non-MI)と多重命令法(multiple imputation,MI)を区別する。
論文参考訳（メタデータ） (2025-10-25T08:01:55Z)
Regression Augmentation With Data-Driven Segmentation [0.0]
不均衡回帰は、ターゲット分布が歪んだときに発生し、モデルが密度の高い領域に集中し、表現不足の(マイノリティ)サンプルと競合する原因となる。本稿では,Mahalanobis-Gaussian Mixture Modeling (GMM) を用いて,マイノリティサンプルの自動同定を行う,完全なデータ駆動型GANベースの拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-02T18:12:11Z)
CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [54.85000884785013]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-06-13T13:30:15Z)
Learning a Class of Mixed Linear Regressions: Global Convergence under General Data Conditions [1.9295130374196499]
線形回帰モデル(MLR)は線形回帰モデル(英語版)の混合を利用して非線形関係における理論的および実践的重要性から注目されている。このようなシステムの学習問題に多大な努力が注がれているが、既存のほとんどの調査では、厳密な独立性と同一に分散された(d.d.)あるいは分散PE条件が課されている。
論文参考訳（メタデータ） (2025-03-24T09:57:39Z)
Anomaly Detection Under Uncertainty Using Distributionally Robust Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。 1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文参考訳（メタデータ） (2023-12-03T06:13:22Z)
Learning to Bound Counterfactual Inference in Structural Causal Models from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文参考訳（メタデータ） (2022-12-06T12:42:11Z)
A Robust and Flexible EM Algorithm for Mixtures of Elliptical Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文参考訳（メタデータ） (2022-01-28T10:01:37Z)
MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文参考訳（メタデータ） (2021-11-04T22:38:18Z)
Information-Theoretic Generalization Bounds for Iterative Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文参考訳（メタデータ） (2021-10-03T05:38:49Z)
Evaluating State-of-the-Art Classification Models Against Bayes Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文参考訳（メタデータ） (2021-06-07T06:21:20Z)
Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文参考訳（メタデータ） (2020-10-20T16:17:47Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
Categorical anomaly detection in heterogeneous data using minimum description length clustering [3.871148938060281]
異種データを扱うため,MPLに基づく異常検出モデルの拡張のためのメタアルゴリズムを提案する。実験の結果, 離散混合モデルを用いることで, 従来の2つの異常検出アルゴリズムと比較して, 競合性能が向上することがわかった。
論文参考訳（メタデータ） (2020-06-14T14:48:37Z)
Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文参考訳（メタデータ） (2020-06-04T15:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。