論文の概要: Thinning a Wishart Random Matrix
- arxiv url: http://arxiv.org/abs/2502.09957v1
- Date: Fri, 14 Feb 2025 07:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:28.650313
- Title: Thinning a Wishart Random Matrix
- Title(参考訳): ウィッシュアートランダムマトリックスの薄型化
- Authors: Ameer Dharamshi, Anna Neufeld, Lucy L. Gao, Daniela Witten, Jacob Bien,
- Abstract要約: 独立な$N_p(mu, Sigma)$行を持つ2つの独立したデータ行列を生成することができることを示す。
これらの独立したデータ行列は、トレインテストのパラダイム内で直接使用したり、独立した要約統計を引き出すために使用することができる。
- 参考スコア(独自算出の注目度): 3.734088413551237
- License:
- Abstract: Recent work has explored data thinning, a generalization of sample splitting that involves decomposing a (possibly matrix-valued) random variable into independent components. In the special case of a $n \times p$ random matrix with independent and identically distributed $N_p(\mu, \Sigma)$ rows, Dharamshi et al. (2024a) provides a comprehensive analysis of the settings in which thinning is or is not possible: briefly, if $\Sigma$ is unknown, then one can thin provided that $n>1$. However, in some situations a data analyst may not have direct access to the data itself. For example, to preserve individuals' privacy, a data bank may provide only summary statistics such as the sample mean and sample covariance matrix. While the sample mean follows a Gaussian distribution, the sample covariance follows (up to scaling) a Wishart distribution, for which no thinning strategies have yet been proposed. In this note, we fill this gap: we show that it is possible to generate two independent data matrices with independent $N_p(\mu, \Sigma)$ rows, based only on the sample mean and sample covariance matrix. These independent data matrices can either be used directly within a train-test paradigm, or can be used to derive independent summary statistics. Furthermore, they can be recombined to yield the original sample mean and sample covariance.
- Abstract(参考訳): 近年の研究では、(行列値の可能性のある)確率変数を独立したコンポーネントに分解するサンプル分割の一般化として、データの薄化が検討されている。
独立かつ同一に分散された$N_p(\mu, \Sigma)$行を持つ$n \times p$ランダム行列の特別な場合、Dharamshi et al (2024a) はシンニングが可能であるか不可能であるような設定を包括的に解析する。
しかし、ある状況では、データアナリストはデータそのものに直接アクセスすることができないかもしれない。
例えば、個人のプライバシーを維持するために、データバンクはサンプル平均やサンプル共分散行列のような要約統計のみを提供することができる。
サンプル平均はガウス分布に従うが、サンプル共分散はウィッシュアート分布に従う(スケーリングまで)。
本稿では,サンプル平均とサンプル共分散行列のみに基づいて,独立な$N_p(\mu, \Sigma)$行を持つ2つの独立したデータ行列を生成することができることを示す。
これらの独立したデータ行列は、トレインテストのパラダイム内で直接使用したり、独立した要約統計を引き出すために使用することができる。
さらに、これらを組み換えて元のサンプル平均値とサンプル共分散が得られる。
関連論文リスト
- Differentially Private Multi-Sampling from Distributions [4.292685318253575]
本研究は,DPエフェッスルサンプリングのサンプル複雑性,すなわち,このタスクの実行に必要なサンプルの最小数について検討する。
エンフルティサンプリングの2つの変種を定義し、そこでは、プライベートに$m>1$サンプルを近似することを目的としている。
論文 参考訳(メタデータ) (2024-12-13T19:14:05Z) - Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Decomposing Gaussians with Unknown Covariance [3.734088413551237]
本稿では,ガウスデータに対する従来の分解手法をすべて包含する一般アルゴリズムを提案する。
これは$n>1$の場合にサンプル分割に代わる、より柔軟でフレキシブルな代替となる。
これらの分解を、代替戦略が利用できない設定において、モデル選択と選択後推論のタスクに適用する。
論文 参考訳(メタデータ) (2024-09-17T18:56:08Z) - SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric
Positive Definite Space [47.65912121120524]
本研究では,大規模データを扱う新しい生成モデルであるSPD-DDPMを提案する。
我々のモデルは、$y$を与えることなく、無条件で柔軟に$p(X)$を見積もることができる。
おもちゃのデータと実際のタクシーデータによる実験結果から、我々のモデルは無条件と無条件の両方のデータ分布に効果的に適合することが示された。
論文 参考訳(メタデータ) (2023-12-13T15:08:54Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - A Statistical Learning View of Simple Kriging [0.0]
統計的学習の観点から,簡単なKrigingタスクを解析する。
目標は、最小2次リスクで他の場所にある未知の値を予測することである。
我々は、真の最小化を模倣するプラグイン予測則の過剰なリスクに対して、$O_mathbbP (1/sqrtn)$の非漸近境界を証明した。
論文 参考訳(メタデータ) (2022-02-15T12:46:43Z) - Covariance-Aware Private Mean Estimation Without Private Covariance Estimation [10.036088581191592]
2つのサンプル係数差分プライベート平均推定器を$d$-dimensional(sub)Gaussian分布に対して提案する。
我々の推定子は、$| tildemu - mu |_Sigma leq alpha$, where $| cdot |_Sigma$がマハラノビス距離であるような$tildemu$を出力します。
論文 参考訳(メタデータ) (2021-06-24T21:40:07Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。