論文の概要: Distributed Bootstrap for Simultaneous Inference Under High
Dimensionality
- arxiv url: http://arxiv.org/abs/2102.10080v1
- Date: Fri, 19 Feb 2021 18:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:18:56.083437
- Title: Distributed Bootstrap for Simultaneous Inference Under High
Dimensionality
- Title(参考訳): 高次元同時推論のための分散型ブートストラップ
- Authors: Yang Yu, Shih-Kang Chao, Guang Cheng
- Abstract要約: 高次元大規模データに対する同時推論のための分散ブートストラップ法を提案する。
この方法は、通信効率の高い脱バイアスラッソに基づく $ell_infty$-norm 信頼領域を生成する。
理論的には、統計的精度と効率性を保証する通信ラウンドの数よりも低いことを証明します。
- 参考スコア(独自算出の注目度): 24.19717678204432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a distributed bootstrap method for simultaneous inference on
high-dimensional massive data that are stored and processed with many machines.
The method produces a $\ell_\infty$-norm confidence region based on a
communication-efficient de-biased lasso, and we propose an efficient
cross-validation approach to tune the method at every iteration. We
theoretically prove a lower bound on the number of communication rounds
$\tau_{\min}$ that warrants the statistical accuracy and efficiency.
Furthermore, $\tau_{\min}$ only increases logarithmically with the number of
workers and intrinsic dimensionality, while nearly invariant to the nominal
dimensionality. We test our theory by extensive simulation studies, and a
variable screening task on a semi-synthetic dataset based on the US Airline
On-time Performance dataset. The code to reproduce the numerical results is
available at GitHub: https://github.com/skchao74/Distributed-bootstrap.
- Abstract(参考訳): 本稿では,多数のマシンに格納・処理された高次元大規模データの同時推定を行う分散型ブートストラップ法を提案する。
この手法は,通信効率のよい脱バイアスラッソに基づく $\ell_\infty$-norm 信頼領域を生成し,各イテレーションでメソッドをチューニングするための効率的なクロスバリデーションアプローチを提案する。
理論的には、統計的精度と効率を保証する通信ラウンド$\tau_{\min}$の数の低い境界を証明します。
さらに、$\tau_{\min}$ は労働者の数と内在的な次元に対数的にのみ増大するが、名目次元にはほとんど不変である。
我々は,米国航空会社のオンタイムパフォーマンスデータセットに基づく半合成データセット上で,広範囲なシミュレーション研究と可変スクリーニングタスクを用いて本理論を検証した。
数値結果を再現するコードはGitHubで公開されている。
関連論文リスト
- Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Distributed Sparse Feature Selection in Communication-Restricted
Networks [6.9257380648471765]
疎線形回帰と特徴選択のための新しい分散スキームを提案し,理論的に解析する。
データセット全体から因果次元を推定するために,ネットワーク内の情報共有をシンプルかつ効果的に行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T05:02:24Z) - Adjusted chi-square test for degree-corrected block models [13.122543280692641]
次数補正ブロックモデル(DCSBM)の適合性テストを提案する。
単純な調整により、$d_i$ の調和平均が無限に成長する限り、統計は null の下で分布に収束する。
我々の分布結果は漸近的ではなく、明示的な定数を持ち、目標分布へのコルモゴロフ-スミルノフ距離の有限サンプル境界を与える。
論文 参考訳(メタデータ) (2020-12-30T05:20:59Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Simultaneous Inference for Massive Data: Distributed Bootstrap [22.940967562381136]
オーバーサンプリングなしでマスタマシン上でブートストラップを行い、通常はcitekleiner2014scalable,sengupta2016subsampledという既存のメソッドで必要になります。
本手法では, 繰り返しモデルの再適合を必要としないが, 作業機械から受信した勾配に対して, マスタマシンに乗算器ブートストラップのみを適用している。
論文 参考訳(メタデータ) (2020-02-19T20:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。