論文の概要: Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators
with Massive Data
- arxiv url: http://arxiv.org/abs/2005.10435v3
- Date: Mon, 5 Jul 2021 15:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 00:06:32.674497
- Title: Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators
with Massive Data
- Title(参考訳): 大規模データを用いた最大準次推定器の最適分散サブサンプリング
- Authors: Jun Yu, HaiYing Wang, Mingyao Ai and Huiming Zhang
- Abstract要約: 既存の手法は主に高い計算効率のために置換されたサブサンプリングに焦点を当てている。
まず,準類似度推定の文脈で最適なサブサンプリング確率を導出する。
我々は,分散サブサンプリングフレームワークを開発し,全データの小さなパーティションで統計を同時に計算する。
- 参考スコア(独自算出の注目度): 20.79270369203348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nonuniform subsampling methods are effective to reduce computational burden
and maintain estimation efficiency for massive data. Existing methods mostly
focus on subsampling with replacement due to its high computational efficiency.
If the data volume is so large that nonuniform subsampling probabilities cannot
be calculated all at once, then subsampling with replacement is infeasible to
implement. This paper solves this problem using Poisson subsampling. We first
derive optimal Poisson subsampling probabilities in the context of
quasi-likelihood estimation under the A- and L-optimality criteria. For a
practically implementable algorithm with approximated optimal subsampling
probabilities, we establish the consistency and asymptotic normality of the
resultant estimators. To deal with the situation that the full data are stored
in different blocks or at multiple locations, we develop a distributed
subsampling framework, in which statistics are computed simultaneously on
smaller partitions of the full data. Asymptotic properties of the resultant
aggregated estimator are investigated. We illustrate and evaluate the proposed
strategies through numerical experiments on simulated and real data sets.
- Abstract(参考訳): 非一様部分サンプリング法は, 計算負担を低減し, 大規模データの推定効率を維持するのに有効である。
既存の手法は主に高い計算効率のために置換されたサブサンプリングに焦点を当てている。
データボリュームが非常に大きく、不均一なサブサンプリング確率を一度に計算できない場合、置換したサブサンプリングの実装は不可能である。
本稿では,この問題をPoissonサブサンプリングを用いて解決する。
まず,A-およびL-最適条件下での準類似度推定の文脈における最適ポアソンサブサンプリング確率を導出する。
最適サブサンプリング確率を近似した実装可能なアルゴリズムに対して,結果推定器の一貫性と漸近正規性を確立する。
本研究は,全データを異なるブロックあるいは複数の場所に格納する状況に対処するため,分散サブサンプリングフレームワークを開発し,全データの小さなパーティションで統計を同時に計算する。
得られた集計推定器の漸近特性について検討した。
シミュレーションおよび実データを用いた数値実験により,提案手法を実証し,評価する。
関連論文リスト
- On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates [5.13323375365494]
我々は,強い対数対数データの下での拡散に基づく生成モデルの収束挙動を理論的に保証する。
スコア推定に使用される関数のクラスは、スコア関数上のリプシッツネスの仮定を避けるために、リプシッツ連続関数からなる。
この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。
論文 参考訳(メタデータ) (2023-11-22T18:40:45Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Selection of the Most Probable Best [2.1095005405219815]
予測値ランキングと選択(R&S)問題では,すべてのk解のシミュレーション出力が,分布によって不確実性をモデル化可能な共通パラメータに依存する。
我々は、最も確率の高い最適解 (MPB) を、分布に関して最適である確率が最も大きい解と定義する。
最適化条件における未知の手段をその推定値に置き換えるアルゴリズムを考案し,シミュレーション予算が増加するにつれて,アルゴリズムのサンプリング比が条件を満たすことを証明した。
論文 参考訳(メタデータ) (2022-07-15T15:27:27Z) - Near-optimal estimation of smooth transport maps with kernel
sums-of-squares [81.02564078640275]
滑らかな条件下では、2つの分布の間の正方形ワッサーシュタイン距離は、魅力的な統計的誤差上界で効率的に計算できる。
生成的モデリングのような応用への関心の対象は、基礎となる最適輸送写像である。
そこで本研究では,地図上の統計的誤差であるL2$が,既存のミニマックス下限値とほぼ一致し,スムーズな地図推定が可能となる最初のトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-03T13:45:36Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Maximum sampled conditional likelihood for informative subsampling [4.708378681950648]
サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する、計算学的に効果的な手法である。
そこで本研究では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
論文 参考訳(メタデータ) (2020-11-11T16:01:17Z) - Scalable Distributed Approximation of Internal Measures for Clustering
Evaluation [5.144809478361603]
クラスタリング評価のための内部測度はシルエット係数であり、計算には2つの距離計算が必要である。
本稿では,任意の距離に基づいてクラスタリングの評価を行うための厳密な近似を計算した最初のスケーラブルアルゴリズムを提案する。
また,このアルゴリズムは凝集や分離などのクラスタリング品質の他の内部指標の厳密な近似に適応可能であることも証明した。
論文 参考訳(メタデータ) (2020-03-03T10:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。