論文の概要: Making Multi-Axis Gaussian Graphical Models Scalable to Millions of Samples and Features
- arxiv url: http://arxiv.org/abs/2407.19892v1
- Date: Mon, 29 Jul 2024 11:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:06:25.711058
- Title: Making Multi-Axis Gaussian Graphical Models Scalable to Millions of Samples and Features
- Title(参考訳): 多軸ガウス図形モデルを数百万のサンプルと特徴に拡張する
- Authors: Bailey Andrew, David R. Westhead, Luisa Cutillo,
- Abstract要約: 我々は独立性を仮定することなく、$O(n2)$ランタイムと$O(n)$スペース複雑性を持つメソッドを導入する。
我々は,実世界の1000,000セルのscRNA-seqデータセットなど,前例のない大規模なデータセットに対して,我々のアプローチが適用可能であることを実証した。
- 参考スコア(独自算出の注目度): 0.30723404270319693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaussian graphical models can be used to extract conditional dependencies between the features of the dataset. This is often done by making an independence assumption about the samples, but this assumption is rarely satisfied in reality. However, state-of-the-art approaches that avoid this assumption are not scalable, with $O(n^3)$ runtime and $O(n^2)$ space complexity. In this paper, we introduce a method that has $O(n^2)$ runtime and $O(n)$ space complexity, without assuming independence. We validate our model on both synthetic and real-world datasets, showing that our method's accuracy is comparable to that of prior work We demonstrate that our approach can be used on unprecedentedly large datasets, such as a real-world 1,000,000-cell scRNA-seq dataset; this was impossible with previous approaches. Our method maintains the flexibility of prior work, such as the ability to handle multi-modal tensor-variate datasets and the ability to work with data of arbitrary marginal distributions. An additional advantage of our method is that, unlike prior work, our hyperparameters are easily interpretable.
- Abstract(参考訳): ガウスのグラフィカルモデルを使用して、データセットの特徴間の条件依存を抽出することができる。
これはサンプルについて独立的な仮定を行うことによって行われることが多いが、実際にこの仮定が満たされることは滅多にない。
しかし、この仮定を避ける最先端のアプローチは、$O(n^3)$ランタイムと$O(n^2)$スペースの複雑さによってスケーラブルではない。
本稿では,独立性を仮定することなく,$O(n^2)$ランタイムと$O(n)$スペース複雑性を持つ手法を提案する。
我々は、我々の手法が、実世界の1000,000セルのcRNA-seqデータセットのような前例のない大規模なデータセットで使用できることを示す。
提案手法は,マルチモーダルテンソル変量データセットの処理能力や,任意の周辺分布のデータを扱う能力など,先行作業の柔軟性を維持している。
我々の方法のもう1つの利点は、以前の研究とは異なり、我々のハイパーパラメータは容易に解釈可能であることである。
関連論文リスト
- Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes [7.5991638205413325]
トレーニングポイントが$N$の場合、正確な推論は$O(N3)$コストを持ち、$M ll N$機能により、アートスパース変分メソッドの状態は$O(NM2)$コストを持つ。
近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。
本稿では,Fourier機能の統合について提案する。これは,これらのパフォーマンスのメリットを,より広範な定常的コのクラスに拡張するものである。
論文 参考訳(メタデータ) (2023-08-27T15:44:28Z) - Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data [4.971690889257356]
コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。
iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-08-08T17:56:20Z) - Sparse Gaussian Graphical Models with Discrete Optimization:
Computational and Statistical Perspectives [8.403841349300103]
本研究では,無向ガウス図形モデルに基づくスパースグラフの学習問題を考察する。
擬似微分関数の $ell_0$-penalized バージョンに基づく新しい推定器 GraphL0BnB を提案する。
実/合成データセットに関する数値実験により,本手法がほぼ最適に,p = 104$の問題を解けることが示唆された。
論文 参考訳(メタデータ) (2023-07-18T15:49:02Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Scalable Bigraphical Lasso: Two-way Sparse Network Inference for Count
Data [11.762284639312613]
カルテシアン積グラフの固有値分解を利用して、より効率的なBigraphical Lassoアルゴリズムを提案する。
提案手法は,高次元データの計算複雑性を低減し,インスタンスと特徴の双方にまたがる依存関係を考慮に入れている。
論文 参考訳(メタデータ) (2022-03-15T13:50:49Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。