論文の概要: Identifying Heterogeneity in Distributed Learning
- arxiv url: http://arxiv.org/abs/2506.16394v3
- Date: Tue, 24 Jun 2025 23:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.346146
- Title: Identifying Heterogeneity in Distributed Learning
- Title(参考訳): 分散学習における不均一性の同定
- Authors: Zelin Xiao, Jia Gu, Song Xi Chen,
- Abstract要約: 最小データ伝送量を用いた分散M推定における不均一パラメータ成分の同定法について検討する。
1つは再正規化されたWaldテストに基づいており、分散データブロックの数が$K$で最小ブロックのサンプルサイズより小さいオーダーである限り一貫性がある。
2つ目は、データブロック間の最大と最小のコンポーネント単位でのパラメータの差に基づく、極端なコントラストテスト(ECT)である。
- 参考スコア(独自算出の注目度): 1.7244120238071492
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study methods for identifying heterogeneous parameter components in distributed M-estimation with minimal data transmission. One is based on a re-normalized Wald test, which is shown to be consistent as long as the number of distributed data blocks $K$ is of a smaller order of the minimum block sample size and the level of heterogeneity is dense. The second one is an extreme contrast test (ECT) based on the difference between the largest and smallest component-wise estimated parameters among data blocks. By introducing a sample splitting procedure, the ECT can avoid the bias accumulation arising from the M-estimation procedures, and exhibits consistency for $K$ being much larger than the sample size while the heterogeneity is sparse. The ECT procedure is easy to operate and communication-efficient. A combination of the Wald and the extreme contrast tests is formulated to attain more robust power under varying levels of sparsity of the heterogeneity. We also conduct intensive numerical experiments to compare the family-wise error rate (FWER) and the power of the proposed methods. Additionally, we conduct a case study to present the implementation and validity of the proposed methods.
- Abstract(参考訳): 最小データ伝送量を用いた分散M推定における不均一パラメータ成分の同定法について検討する。
一つは再正規化されたウォルドテストに基づいており、分散データブロックの数が$K$で最小ブロックのサンプルサイズが小さく、不均一性のレベルが濃密である限り、一貫性があることが示されている。
2つ目は、データブロック間の最大と最小のコンポーネント単位でのパラメータの差に基づく、極端なコントラストテスト(ECT)である。
サンプル分割法を導入することにより、ECTは、M推定法から生じるバイアスの蓄積を回避でき、不均一性が希薄である間、サンプルサイズよりもずっと大きい$K$の一貫性を示す。
ECT手順は操作が容易で、通信効率が良い。
ヴァルトと極度のコントラスト試験の組み合わせは、異質性の間隔の異なるレベルにおいてより堅牢なパワーを達成するために定式化される。
また,家族的誤り率(FWER)と提案手法のパワーを比較するために,集中的な数値実験を行った。
また,提案手法の実装と妥当性を示すケーススタディを実施している。
関連論文リスト
- CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
セマンティックな一貫性を維持しつつ,サンプル単位のロジットアライメントを実現するコントラッシブな知識蒸留フレームワークを提案する。
提案手法は,教師と教師の対照的アライメントを通じて「暗黒知識」をサンプルレベルで伝達する。
CIFAR-100、ImageNet-1K、MS COCOデータセットを含む3つのベンチマークデータセットの総合的な実験を行う。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Determinantal point processes based on orthogonal polynomials for
sampling minibatches in SGD [0.0]
勾配降下(SGD)は機械学習の基盤である。
デフォルトのミニバッチ構成では、望ましいサイズのサブセットを一様にサンプリングする。
DPPと制御された近似の列が、一様サンプリングよりもバッチサイズで高速に崩壊するばらつきを持つ勾配推定器にどのように影響するかを示す。
論文 参考訳(メタデータ) (2021-12-11T15:09:19Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。
偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文 参考訳(メタデータ) (2021-05-02T05:34:32Z) - Precise High-Dimensional Asymptotics for Quantifying Heterogeneous Transfers [66.66228496844191]
2つのタスクのサンプルを組み合わせることは、1つのタスクだけを学習するよりも、いつより優れているかを示す。
この問題は、実際には観測されている負転移と呼ばれる経験的な現象によって動機付けられている。
これらの結果をランダム効果モデルで説明し、ソースタスクのサンプル数が増加するにつれて、正から負への位相遷移を数学的に証明する。
論文 参考訳(メタデータ) (2020-10-22T14:14:20Z) - A Nonparametric Test of Dependence Based on Ensemble of Decision Trees [0.0]
提案した係数は、観測されたサンプルS_n : (X_i, Y_i), i = 1の量を定量化する置換様統計量である。
n は置換標本 S_nn : (X_i, Y_j) i, j = 1 から判別可能である。
2つの変数が独立している。
論文 参考訳(メタデータ) (2020-07-24T02:48:33Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Discriminator Contrastive Divergence: Semi-Amortized Generative Modeling
by Exploring Energy of the Discriminator [85.68825725223873]
GAN(Generative Adversarial Networks)は、高次元データのモデリングにおいて大きな可能性を秘めている。
本稿では,WGANの識別器の特性を活かした識別器コントラストの多様性について紹介する。
我々は、合成データと実世界の画像生成ベンチマークの両方において、大幅に改善された生成の利点を実証する。
論文 参考訳(メタデータ) (2020-04-05T01:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。