論文の概要: Generalized Grade-of-Membership Estimation for High-dimensional Locally Dependent Data
- arxiv url: http://arxiv.org/abs/2412.19796v1
- Date: Fri, 27 Dec 2024 18:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:13.102210
- Title: Generalized Grade-of-Membership Estimation for High-dimensional Locally Dependent Data
- Title(参考訳): 高次元局所依存データの一般化次数推定
- Authors: Ling Chen, Chengzhu Huang, Yuqi Gu,
- Abstract要約: 混合会員モデルは、調査回答と集団遺伝データの分析に広く利用されている。
ベイジアンMCMC推論のような既存のアプローチはスケーラブルではなく、高次元設定では理論的保証が欠如している。
本稿では,3方向準テンソルを「脂肪」行列に平坦化し,パラメータを推定するための特異値分解を行う,新しい,シンプルなアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.626575011678484
- License:
- Abstract: This work focuses on the mixed membership models for multivariate categorical data widely used for analyzing survey responses and population genetics data. These grade of membership (GoM) models offer rich modeling power but present significant estimation challenges for high-dimensional polytomous data. Popular existing approaches, such as Bayesian MCMC inference, are not scalable and lack theoretical guarantees in high-dimensional settings. To address this, we first observe that data from this model can be reformulated as a three-way (quasi-)tensor, with many subjects responding to many items with varying numbers of categories. We introduce a novel and simple approach that flattens the three-way quasi-tensor into a "fat" matrix, and then perform a singular value decomposition of it to estimate parameters by exploiting the singular subspace geometry. Our fast spectral method can accommodate a broad range of data distributions with arbitrarily locally dependent noise, which we formalize as the generalized-GoM models. We establish finite-sample entrywise error bounds for the generalized-GoM model parameters. This is supported by a new sharp two-to-infinity singular subspace perturbation theory for locally dependent and flexibly distributed noise, a contribution of independent interest. Simulations and applications to data in political surveys, population genetics, and single-cell sequencing demonstrate our method's superior performance.
- Abstract(参考訳): 本研究は,多変量分類データの混合会員モデルに着目し,調査応答と集団遺伝データの解析に広く用いられている。
これらの階層型メンバシップモデル(GoM)は、リッチなモデリング能力を提供するが、高次元多面体データに対する重要な推定課題を提示する。
ベイジアンMCMC推論のような一般的な既存のアプローチはスケーラブルではなく、高次元設定では理論的保証が欠如している。
この問題を解決するために、まず、このモデルから得られるデータは3方向(準)のテンソルとして再構成可能であることを観察し、多くの被験者がカテゴリ数が異なる多くの項目に応答する。
そこで我々は,三方向準テンソルを「脂肪」行列に平坦化し,その特異値分解を行い,特異部分空間幾何を利用してパラメータを推定する,新しい,シンプルなアプローチを提案する。
我々の高速スペクトル法は、任意の局所依存雑音を持つ幅広いデータ分布に対応でき、一般化GoMモデルとして定式化できる。
一般化GoMモデルパラメータに対して有限サンプルのエントリーワイド誤差境界を確立する。
これは、局所依存的かつ柔軟に分布する雑音に対する新しい鋭い2-無限特異部分空間摂動理論(独立利害の寄与)によって支持される。
政治調査、集団遺伝学、単一細胞シークエンシングにおけるデータのシミュレーションと応用は、我々の方法の優れた性能を示している。
関連論文リスト
- Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - A Bayesian Framework on Asymmetric Mixture of Factor Analyser [0.0]
本稿では、スキュー正規(無制限)一般化双曲型(SUNGH)分布のリッチで柔軟なクラスを持つMFAモデルを提案する。
SUNGHファミリーは、様々な方向の歪みをモデル化する柔軟性と、重み付きデータを可能にする。
因子分析モデルを考慮すると、SUNGHファミリーは誤差成分と因子スコアの両方の歪みと重みを許容する。
論文 参考訳(メタデータ) (2022-11-01T20:19:52Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Hierarchical Representation via Message Propagation for Robust Model
Fitting [28.03005930782681]
堅牢なモデルフィッティングのためのメッセージ伝搬(HRMP)法による新しい階層表現を提案する。
コンセンサス情報と選好情報を階層的表現として定式化し、粗悪な外れ値に対する感度を緩和する。
提案するhrmpは,複数のモデルインスタンスの数とパラメータを正確に推定するだけでなく,多数の異常値で汚染されたマルチストラクショナルデータを処理できる。
論文 参考訳(メタデータ) (2020-12-29T04:14:19Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。