論文の概要: Scalable Bigraphical Lasso: Two-way Sparse Network Inference for Count
Data
- arxiv url: http://arxiv.org/abs/2203.07912v1
- Date: Tue, 15 Mar 2022 13:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:04:52.833408
- Title: Scalable Bigraphical Lasso: Two-way Sparse Network Inference for Count
Data
- Title(参考訳): スケーラブルなBigraphical Lasso: カウントデータのための双方向スパースネットワーク推論
- Authors: Sijia Li, Mart\'in L\'opez-Garc\'ia, Neil D. Lawrence, Luisa Cutillo
- Abstract要約: カルテシアン積グラフの固有値分解を利用して、より効率的なBigraphical Lassoアルゴリズムを提案する。
提案手法は,高次元データの計算複雑性を低減し,インスタンスと特徴の双方にまたがる依存関係を考慮に入れている。
- 参考スコア(独自算出の注目度): 11.762284639312613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Classically, statistical datasets have a larger number of data points than
features ($n > p$). The standard model of classical statistics caters for the
case where data points are considered conditionally independent given the
parameters. However, for $n\approx p$ or $p > n$ such models are poorly
determined. Kalaitzis et al. (2013) introduced the Bigraphical Lasso, an
estimator for sparse precision matrices based on the Cartesian product of
graphs. Unfortunately, the original Bigraphical Lasso algorithm is not
applicable in case of large p and n due to memory requirements. We exploit
eigenvalue decomposition of the Cartesian product graph to present a more
efficient version of the algorithm which reduces memory requirements from
$O(n^2p^2)$ to $O(n^2 + p^2)$. Many datasets in different application fields,
such as biology, medicine and social science, come with count data, for which
Gaussian based models are not applicable. Our multi-way network inference
approach can be used for discrete data. Our methodology accounts for the
dependencies across both instances and features, reduces the computational
complexity for high dimensional data and enables to deal with both discrete and
continuous data. Numerical studies on both synthetic and real datasets are
presented to showcase the performance of our method.
- Abstract(参考訳): 古典的には、統計データセットは特徴(n > p$)よりも多くのデータポイントを持つ。
古典統計学の標準モデルは、パラメータによってデータポイントが条件付き独立と見なされる場合に対応する。
しかし、$n\approx p$ や $p > n$ ではそのようなモデルは不確定である。
Kalaitzis et al. (2013) は、グラフのチャート積に基づいたスパース精度行列の推定器である Bigraphical Lasso を導入した。
残念ながら、元のBigraphical Lassoアルゴリズムはメモリ要求のため、大きな p と n の場合には適用できない。
直積グラフの固有値分解を利用して、より効率的なアルゴリズムのバージョンを示し、メモリ要求を$o(n^2p^2)$から$o(n^2 + p^2)$に削減する。
生物学、医学、社会科学など、さまざまな応用分野における多くのデータセットには、ガウスに基づくモデルが適用できないカウントデータがある。
我々のマルチウェイネットワーク推論アプローチは離散データに利用できる。
我々の方法論はインスタンスと機能の両方の依存関係を考慮し、高次元データの計算複雑性を低減し、離散データと連続データの両方を扱えるようにする。
本手法の性能を示すために,合成データと実データの両方について数値的研究を行った。
関連論文リスト
- Making Multi-Axis Gaussian Graphical Models Scalable to Millions of Samples and Features [0.30723404270319693]
我々は独立性を仮定することなく、$O(n2)$ランタイムと$O(n)$スペース複雑性を持つメソッドを導入する。
我々は,実世界の1000,000セルのscRNA-seqデータセットなど,前例のない大規模なデータセットに対して,我々のアプローチが適用可能であることを実証した。
論文 参考訳(メタデータ) (2024-07-29T11:15:25Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Compressive Recovery of Sparse Precision Matrices [5.557600489035657]
我々は,$d$変数の統計的関係を,mathbbRn times d$の$n$サンプル$Xのデータセットからモデル化するグラフの学習問題を考察する。
サイズ $m=Omegaleft((d+2k)log(d)right)$ ここで、$k$は基礎となるグラフのエッジの最大数である。
本稿では, グラフィカルラッソに基づく反復アルゴリズムを用いて, 具体的デノイザとみなす実用的リカバリを実現する可能性について検討する。
論文 参考訳(メタデータ) (2023-11-08T13:29:08Z) - Sparse Gaussian Graphical Models with Discrete Optimization:
Computational and Statistical Perspectives [8.403841349300103]
本研究では,無向ガウス図形モデルに基づくスパースグラフの学習問題を考察する。
擬似微分関数の $ell_0$-penalized バージョンに基づく新しい推定器 GraphL0BnB を提案する。
実/合成データセットに関する数値実験により,本手法がほぼ最適に,p = 104$の問題を解けることが示唆された。
論文 参考訳(メタデータ) (2023-07-18T15:49:02Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。