論文の概要: Linear Discriminant Analysis with High-dimensional Mixed Variables
- arxiv url: http://arxiv.org/abs/2112.07145v3
- Date: Tue, 2 Jan 2024 09:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 20:35:02.227812
- Title: Linear Discriminant Analysis with High-dimensional Mixed Variables
- Title(参考訳): 高次元混合変数を用いた線形判別分析
- Authors: Binyan Jiang, Chenlei Leng, Cheng Wang, Zhongqing Yang, Xinyang Yu
- Abstract要約: 本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
- 参考スコア(独自算出の注目度): 10.774094462083843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Datasets containing both categorical and continuous variables are frequently
encountered in many areas, and with the rapid development of modern measurement
technologies, the dimensions of these variables can be very high. Despite the
recent progress made in modelling high-dimensional data for continuous
variables, there is a scarcity of methods that can deal with a mixed set of
variables. To fill this gap, this paper develops a novel approach for
classifying high-dimensional observations with mixed variables. Our framework
builds on a location model, in which the distributions of the continuous
variables conditional on categorical ones are assumed Gaussian. We overcome the
challenge of having to split data into exponentially many cells, or
combinations of the categorical variables, by kernel smoothing, and provide new
perspectives for its bandwidth choice to ensure an analogue of Bochner's Lemma,
which is different to the usual bias-variance tradeoff. We show that the two
sets of parameters in our model can be separately estimated and provide
penalized likelihood for their estimation. Results on the estimation accuracy
and the misclassification rates are established, and the competitive
performance of the proposed classifier is illustrated by extensive simulation
and real data studies.
- Abstract(参考訳): カテゴリー変数と連続変数の両方を含むデータセットは、多くの領域で頻繁に遭遇し、現代の計測技術の急速な発展により、これらの変数の寸法は非常に高い。
連続変数の高次元データをモデル化する最近の進歩にもかかわらず、混合変数の集合を扱う方法が不足している。
このギャップを埋めるために,混合変数を用いた高次元観測の分類手法を開発した。
我々のフレームワークは位置モデルに基づいており、連続変数の分布がカテゴリー変数に条件づけられていると仮定される。
カーネルの平滑化により、データを指数関数的に多くのセル、あるいはカテゴリ変数の組み合わせに分割するという課題を克服し、通常のバイアス分散トレードオフとは異なるボヒナーのレムマの類似性を保証するために、帯域幅選択の新しい視点を提供する。
本モデルにおける2つのパラメータセットを別々に推定し,その推定にペナルティを課すことができることを示す。
その結果,推定精度と誤分類率が確立され,提案する分類器の競合性能は,広範なシミュレーションと実データ解析によって示される。
関連論文リスト
- CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference [0.2209921757303168]
社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
論文 参考訳(メタデータ) (2024-04-07T14:47:07Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data [2.2871867623460207]
多くのアプリケーションでは、データは異なるタイプの変数にまたがる。
最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。
完全混合型の変数を持つデータに対して,フレキシブルでスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:21:31Z) - A Graphical Model for Fusing Diverse Microbiome Data [2.385985842958366]
本稿では,このような数値データを共同でモデル化するフレキシブルな多項ガウス生成モデルを提案する。
本稿では、潜在変数とモデルのパラメータを推定するための、計算にスケーラブルな変動予測-最大化(EM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-21T17:54:39Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Learning Exponential Family Graphical Models with Latent Variables using
Regularized Conditional Likelihood [10.21814909876358]
遅延可変グラフィカルモデリングのための正規化条件付き確率に基づく新しい凸緩和フレームワークを提案する。
我々は、実データだけでなく、合成に関する数値実験を通じて、我々のフレームワークの有用性と柔軟性を実証する。
論文 参考訳(メタデータ) (2020-10-19T11:16:26Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。