Fugu-MT 論文翻訳(概要): EM for Mixture of Linear Regression with Clustered Data

論文の概要: EM for Mixture of Linear Regression with Clustered Data

arxiv url: http://arxiv.org/abs/2308.11518v1
Date: Tue, 22 Aug 2023 15:47:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 17:28:21.380456
Title: EM for Mixture of Linear Regression with Clustered Data
Title（参考訳）: クラスタデータと線形回帰の混合のためのEM
Authors: Amirhossein Reisizadeh, Khashayar Gatmiry, Asuman Ozdaglar
Abstract要約: 分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
参考スコア（独自算出の注目度）: 6.948976192408852
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Modern data-driven and distributed learning frameworks deal with diverse massive data generated by clients spread across heterogeneous environments. Indeed, data heterogeneity is a major bottleneck in scaling up many distributed learning paradigms. In many settings however, heterogeneous data may be generated in clusters with shared structures, as is the case in several applications such as federated learning where a common latent variable governs the distribution of all the samples generated by a client. It is therefore natural to ask how the underlying clustered structures in distributed data can be exploited to improve learning schemes. In this paper, we tackle this question in the special case of estimating $d$-dimensional parameters of a two-component mixture of linear regressions problem where each of $m$ nodes generates $n$ samples with a shared latent variable. We employ the well-known Expectation-Maximization (EM) method to estimate the maximum likelihood parameters from $m$ batches of dependent samples each containing $n$ measurements. Discarding the clustered structure in the mixture model, EM is known to require $O(\log(mn/d))$ iterations to reach the statistical accuracy of $O(\sqrt{d/(mn)})$. In contrast, we show that if initialized properly, EM on the structured data requires only $O(1)$ iterations to reach the same statistical accuracy, as long as $m$ grows up as $e^{o(n)}$. Our analysis establishes and combines novel asymptotic optimization and generalization guarantees for population and empirical EM with dependent samples, which may be of independent interest.
Abstract（参考訳）: 現代のデータ駆動および分散学習フレームワークは、異種環境にまたがるクライアントによって生成される多様な大量のデータを扱う。実際、多くの分散学習パラダイムをスケールアップする上で、データの多様性は大きなボトルネックです。しかし、多くの環境では、共通潜在変数がクライアントが生成するすべてのサンプルの分布を支配するフェデレート学習のようないくつかのアプリケーションのように、共有構造を持つクラスタで異種データが生成される可能性がある。したがって、分散データ内の基盤となるクラスタ構造をどのように活用して学習スキームを改善するのかを問うのは自然である。本稿では,各$m$ノードが共有潜在変数を持つ$n$サンプルを生成する2成分の線形回帰問題において,$d$次元パラメータを推定する特別なケースにおいて,この問題に取り組む。我々は,よく知られた期待最大化(em)法を用いて,n$測定値を含む従属サンプルの$m$バッチから最大度パラメータを推定する。混合モデルにおけるクラスタ構造を識別すると、EMは$O(\log(mn/d))$反復を必要とすることが知られ、$O(\sqrt{d/(mn)})$の統計的精度に達する。対照的に、構造化データ上のEMが適切に初期化されると、$m$が$e^{o(n)}$に成長する限り、同じ統計的精度に達するためには、O(1)$反復しか必要としない。本分析は, 新規な漸近的最適化と人口と経験的EMの一般化の保証を, 独立性のある依存型サンプルと組み合わせたものである。

関連論文リスト

Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文参考訳（メタデータ） (2025-06-06T23:32:38Z)
Heterogeneity Matters even More in Distributed Learning: Study from Generalization Perspective [14.480713752871523]
1ラウンドのフェデレートラーニングでは、$K$クライアントは、おそらく異なるデータ分散に基づいて、独立して$n$のトレーニングサンプルを生成する。集約モデルの一般化誤差に及ぼすクライアントのデータ分布の相違の影響について検討する。 DSVMは、クライアントのトレーニングサンプル間の相違が大きくなるとより一般化する。
論文参考訳（メタデータ） (2025-03-03T14:33:38Z)
Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文参考訳（メタデータ） (2024-03-08T18:50:19Z)
Weighted Sparse Partial Least Squares for Joint Sample and Feature Selection [7.219077740523681]
本稿では, 共同サンプルと特徴選択のために, $ell_infty/ell_0$-norm制約付きスパースPSS(ell_infty/ell_$-wsPLS)法を提案する。我々は,各マルチビューwsPLSモデルに対して効率的な反復アルゴリズムを開発し,その収束性を示す。
論文参考訳（メタデータ） (2023-08-13T10:09:25Z)
Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文参考訳（メタデータ） (2023-02-18T09:24:15Z)
A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文参考訳（メタデータ） (2023-02-06T23:34:51Z)
On-Demand Sampling: Learning Optimally from Multiple Distributions [63.20009081099896]
社会と現実世界の考察は、マルチディストリビューション学習パラダイムの台頭につながっている。これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。アルゴリズムの設計と解析は,ゼロサムゲーム解決のためのオンライン学習手法の拡張によって実現されている。
論文参考訳（メタデータ） (2022-10-22T19:07:26Z)
Convergence for score-based generative modeling with polynomial complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文参考訳（メタデータ） (2022-06-13T14:57:35Z)
A Statistical Learning View of Simple Kriging [0.0]
統計的学習の観点から,簡単なKrigingタスクを解析する。目標は、最小2次リスクで他の場所にある未知の値を予測することである。我々は、真の最小化を模倣するプラグイン予測則の過剰なリスクに対して、$O_mathbbP (1/sqrtn)$の非漸近境界を証明した。
論文参考訳（メタデータ） (2022-02-15T12:46:43Z)
Iterative Feature Matching: Toward Provable Domain Generalization with Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-18T04:39:19Z)
Learning Gaussian Mixtures with Generalised Linear Models: Precise Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。実験的リスク最小化による高次元推定器の精度を実証する。合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文参考訳（メタデータ） (2021-06-07T16:53:56Z)
Outlier-Robust Clustering of Non-Spherical Mixtures [5.863264019032882]
統計的に分離されたd-次元ガウスアン(k-GMM)の混合をクラスタリングするための最初のアウトリー・ローバストアルゴリズムを与える。この結果は、$d$次元単位球面上の均一分布の任意のアフィン変換のクラスタリング混合に拡張される。
論文参考訳（メタデータ） (2020-05-06T17:24:27Z)
Algebraic and Analytic Approaches for Parameter Learning in Mixture Models [66.96778152993858]
1次元の混合モデルにおけるパラメータ学習のための2つの異なるアプローチを提案する。これらの分布のいくつかについては、パラメータ推定の最初の保証を示す。
論文参考訳（メタデータ） (2020-01-19T05:10:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。