論文の概要: On the Statistical Complexity of Sample Amplification
- arxiv url: http://arxiv.org/abs/2201.04315v1
- Date: Wed, 12 Jan 2022 05:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 15:17:18.929845
- Title: On the Statistical Complexity of Sample Amplification
- Title(参考訳): サンプル増幅の統計的複雑性について
- Authors: Brian Axelrod, Shivam Garg, Yanjun Han, Vatsal Sharan, Gregory Valiant
- Abstract要約: 未知の分布から引き出された$n$ i.i.d.サンプルが与えられたら、いつより大きな$n+m$ i.i.d.サンプルを生成することができるのか?
サンプル増幅問題を, 一般に適用可能な増幅手順, 低境界技術, 既存の統計的概念との関係を導出することにより, しっかりとした統計基盤に配置する。
- 参考スコア(独自算出の注目度): 43.612884935666116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given $n$ i.i.d. samples drawn from an unknown distribution $P$, when is it
possible to produce a larger set of $n+m$ samples which cannot be distinguished
from $n+m$ i.i.d. samples drawn from $P$? (Axelrod et al. 2019) formalized this
question as the sample amplification problem, and gave optimal amplification
procedures for discrete distributions and Gaussian location models. However,
these procedures and associated lower bounds are tailored to the specific
distribution classes, and a general statistical understanding of sample
amplification is still largely missing. In this work, we place the sample
amplification problem on a firm statistical foundation by deriving generally
applicable amplification procedures, lower bound techniques and connections to
existing statistical notions. Our techniques apply to a large class of
distributions including the exponential family, and establish a rigorous
connection between sample amplification and distribution learning.
- Abstract(参考訳): 未知の分布から引き出された$n$ i.i.d.サンプルを$P$とすれば、$P$から引き出された$n+m$と区別できない、より大きな$n+m$サンプルをいつ作成できるのか?
(axelrod et al. 2019)はこの問題をサンプル増幅問題として定式化し、離散分布とガウスの位置モデルに対する最適増幅手順を与えた。
しかしながら、これらの手順と関連する下限は、特定の分布クラスに合わせて調整されており、サンプル増幅に関する一般的な統計的理解はいまだにほとんど失われていない。
本研究では,一般に適用可能な増幅手順,下限手法,既存統計概念との接続を導出することにより,サンプル増幅問題を強固な統計的基礎に配置する。
本手法は指数関数群を含む大規模分布に適用し,サンプル増幅と分布学習の厳密な関係を確立する。
関連論文リスト
- Efficiently learning and sampling multimodal distributions with data-based initialization [20.575122468674536]
静止測度から少数のサンプルを与えられたマルコフ連鎖を用いて多重モーダル分布をサンプリングする問題を考察する。
マルコフ連鎖が$k$dのスペクトルギャップを持つ場合、静止分布からのサンプルは、静止測度からテレビ距離において$varepsilon$-closeの条件法則を持つサンプルを効率よく生成する。
論文 参考訳(メタデータ) (2024-11-14T01:37:02Z) - Sum-of-squares lower bounds for Non-Gaussian Component Analysis [33.80749804695003]
非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。
本稿では Sum-of-Squares フレームワークにおける NGCA の複雑さについて考察する。
論文 参考訳(メタデータ) (2024-10-28T18:19:13Z) - Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Simple and effective data augmentation for compositional generalization [64.00420578048855]
MRをサンプリングし,それらを逆翻訳するデータ拡張法は,合成一般化に有効であることを示す。
注目すべきは、一様分布からのサンプリングは、テスト分布からのサンプリングとほぼ同等に実行されることである。
論文 参考訳(メタデータ) (2024-01-18T09:13:59Z) - The sample complexity of multi-distribution learning [17.45683822446751]
サンプル複雑性$widetildeO((d+k)epsilon-2) cdot (k/epsilon)o(1)$は、Awasthi, Haghtalab, Zhao の COLT 2023 開放問題を解く。
論文 参考訳(メタデータ) (2023-12-07T03:53:17Z) - On-Demand Sampling: Learning Optimally from Multiple Distributions [63.20009081099896]
社会と現実世界の考察は、マルチディストリビューション学習パラダイムの台頭につながっている。
これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。
アルゴリズムの設計と解析は,ゼロサムゲーム解決のためのオンライン学習手法の拡張によって実現されている。
論文 参考訳(メタデータ) (2022-10-22T19:07:26Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Optimal Testing of Discrete Distributions with High Probability [49.19942805582874]
高確率状態に着目して離散分布を試験する問題について検討する。
一定の要素でサンプル最適である近接性および独立性テストのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-14T16:09:17Z) - Weighted Empirical Risk Minimization: Sample Selection Bias Correction
based on Importance Sampling [2.599882743586164]
トレーニング観測値の分布$P'$が、最小化を目指すリスクに関わる分布$Z'_i$と異なる場合、統計的学習問題を考察する。
実際に頻繁に遭遇する様々な状況において、単純な形式を採り、$Phi(z)$から直接推定できることが示される。
次に、上記のアプローチのキャパシティ一般化が、その結果の$Phi(Z'_i)$'sを重み付き経験的リスクにプラグインするときに保持されることを示す。
論文 参考訳(メタデータ) (2020-02-12T18:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。