論文の概要: Statistical Learning under Heterogenous Distribution Shift
- arxiv url: http://arxiv.org/abs/2302.13934v1
- Date: Mon, 27 Feb 2023 16:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:52:09.400378
- Title: Statistical Learning under Heterogenous Distribution Shift
- Title(参考訳): 異種分布シフトによる統計的学習
- Authors: Max Simchowitz, Anurag Ajay, Pulkit Agrawal, Akshay Krishnamurthy
- Abstract要約: ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
我々は、$mathcalF$ が $mathcalG$ よりも "simpler" であるとき(例えば、計量エントロピーの観点から測られる)、我々の予測子は、エンフェテロジニティに対してより弾力的であることを示す。
- 参考スコア(独自算出の注目度): 61.09364869807136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the prediction of a target $\mathbf{z}$ from a pair of
random variables $(\mathbf{x},\mathbf{y})$, where the ground-truth predictor is
additive $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] =
f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$. We study the performance of
empirical risk minimization (ERM) over functions $f+g$, $f \in \mathcal{F}$ and
$g \in \mathcal{G}$, fit on a given training distribution, but evaluated on a
test distribution which exhibits covariate shift. We show that, when the class
$\mathcal{F}$ is "simpler" than $\mathcal{G}$ (measured, e.g., in terms of its
metric entropy), our predictor is more resilient to \emph{heterogenous
covariate shifts} in which the shift in $\mathbf{x}$ is much greater than that
in $\mathbf{y}$. These results rely on a novel H\"older style inequality for
the Dudley integral which may be of independent interest. Moreover, we
corroborate our theoretical findings with experiments demonstrating improved
resilience to shifts in "simpler" features across numerous domains.
- Abstract(参考訳): 本論では、一対の確率変数 $(\mathbf{x},\mathbf{y})$ からターゲット $\mathbf{z}$ の予測について検討する。そこで、基底トラス予測子は加法的 $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$ である。
f+g$, $f \in \mathcal{f}$, $g \in \mathcal{g}$ に対する経験的リスク最小化(erm)の性能は,与えられたトレーニング分布に適合するが,共変シフトを示すテスト分布上で評価される。
クラス $\mathcal{F}$ が $\mathcal{G}$ (例えば計量エントロピーで測る) よりも「単純」であるとき、我々の予測子は $\mathbf{x}$ のシフトが $\mathbf{y}$ のシフトよりもはるかに大きいような \emph{heterogenous covariate shifts} に対してより弾力的であることを示す。
これらの結果は,ダドリー積分に対する新しいH\"古いスタイルの不等式に依存しており,多くの領域にまたがる「単純"な特徴の変化に対するレジリエンスの向上を示す実験により,我々の理論的知見を裏付けるものである。
関連論文リスト
- Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss [33.18537822803389]
L2$ と $Psi_p$ の位相が我々の仮説クラス $mathscrF$, $mathscrF$ に同値であるときにいつでも、$mathscrF$ は弱準ガウス類であることを示す。
以上の結果から, 混合への直接的な依存は高次項に還元されるため, この問題は実現可能か否かを判断できる。
論文 参考訳(メタデータ) (2024-02-08T18:57:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Universality laws for Gaussian mixtures in generalized linear models [22.154969876570238]
一般化線形推定器の族(Theta_1, dots, Theta_M)の合同統計について検討する。
これにより、トレーニングや一般化エラーなど、異なる量の興味の普遍性を証明できる。
我々は,本研究の結果を,アンサンブルや不確実性など,興味のあるさまざまな機械学習タスクに応用することについて議論する。
論文 参考訳(メタデータ) (2023-02-17T15:16:06Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Universality of empirical risk minimization [12.764655736673749]
例えば、$boldsymbol x_i inmathbbRp$ が特徴ベクトルで $y in mathbbR$ がラベルであるような i.d. サンプルからの教師付き学習を考える。
我々は$mathsfkによってパラメータ化される関数のクラスに対する経験的リスク普遍性について研究する。
論文 参考訳(メタデータ) (2022-02-17T18:53:45Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。