論文の概要: Solving Empirical Bayes via Transformers
- arxiv url: http://arxiv.org/abs/2502.09844v1
- Date: Fri, 14 Feb 2025 01:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:47.648448
- Title: Solving Empirical Bayes via Transformers
- Title(参考訳): 変圧器による経験的ベイズの解法
- Authors: Anzo Teh, Mark Jabbour, Yury Polyanskiy,
- Abstract要約: この研究は、最も古い統計問題の1つを解決するために、現代のAIツール(トランスフォーマー)を適用している。
トランスモデルは、合成生成されたペアのセット$(X,theta)$で事前訓練され、未知の$pi$に適応することで、コンテキスト内学習(ICL)を学習する。
- 参考スコア(独自算出の注目度): 18.654470796004265
- License:
- Abstract: This work applies modern AI tools (transformers) to solving one of the oldest statistical problems: Poisson means under empirical Bayes (Poisson-EB) setting. In Poisson-EB a high-dimensional mean vector $\theta$ (with iid coordinates sampled from an unknown prior $\pi$) is estimated on the basis of $X=\mathrm{Poisson}(\theta)$. A transformer model is pre-trained on a set of synthetically generated pairs $(X,\theta)$ and learns to do in-context learning (ICL) by adapting to unknown $\pi$. Theoretically, we show that a sufficiently wide transformer can achieve vanishing regret with respect to an oracle estimator who knows $\pi$ as dimension grows to infinity. Practically, we discover that already very small models (100k parameters) are able to outperform the best classical algorithm (non-parametric maximum likelihood, or NPMLE) both in runtime and validation loss, which we compute on out-of-distribution synthetic data as well as real-world datasets (NHL hockey, MLB baseball, BookCorpusOpen). Finally, by using linear probes, we confirm that the transformer's EB estimator appears to internally work differently from either NPMLE or Robbins' estimators.
- Abstract(参考訳): この研究は、最も古い統計問題の1つを解決するために、現代のAIツール(トランスフォーマー)を適用している。
ポアソン-EB において、高次元平均ベクトル $\theta$ (未知の前の$\pi$から標本化された iid 座標) は、$X=\mathrm{Poisson}(\theta)$ に基づいて推定される。
トランスモデルは合成生成されたペアのセット$(X,\theta)$で事前訓練され、未知の$\pi$に適応することで、コンテキスト内学習(ICL)を学習する。
理論的には、次元が無限に大きくなるにつれて$\pi$を知っているオラクル推定器に対して、十分に広い変換器が消滅する後悔を達成できることが示される。
実際に、非常に小さなモデル(100kパラメータ)が、実行時と検証時の両方で最高の古典的アルゴリズム(非パラメトリック最大可能性、NPMLE)を上回り、分配外合成データと実世界のデータセット(NHLホッケー、MLB野球、BookCorpusOpen)で計算できることがわかった。
最後に、線形プローブを用いて、変換器のEB推定器は、NPMLEまたはロビンズ推定器と内部的に異なる働きをするように見えることを確認した。
関連論文リスト
- Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Sparse Gaussian Graphical Models with Discrete Optimization:
Computational and Statistical Perspectives [8.403841349300103]
本研究では,無向ガウス図形モデルに基づくスパースグラフの学習問題を考察する。
擬似微分関数の $ell_0$-penalized バージョンに基づく新しい推定器 GraphL0BnB を提案する。
実/合成データセットに関する数値実験により,本手法がほぼ最適に,p = 104$の問題を解けることが示唆された。
論文 参考訳(メタデータ) (2023-07-18T15:49:02Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Quantum Multi-Parameter Adaptive Bayesian Estimation and Application to
Super-Resolution Imaging [1.4222887950206657]
量子センシングタスクでは、ユーザは$rho_theta$($theta$をエンコードする量子状態)を得る。
Personick氏はすべての可能な測定値に対してMMSEを最小限に抑える最適なPOVM $Pi_l$を発見した。
1971年のこの結果は量子フィッシャー情報(QFI)よりも広く知られておらず、これは偏りのない推定器のばらつきを低くしている。
論文 参考訳(メタデータ) (2022-02-21T04:12:55Z) - Outlier-robust sparse/low-rank least-squares regression and robust
matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文 参考訳(メタデータ) (2020-12-12T07:42:47Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Computationally and Statistically Efficient Truncated Regression [36.3677715543994]
計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。
提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。
本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。
論文 参考訳(メタデータ) (2020-10-22T19:31:30Z) - Hutch++: Optimal Stochastic Trace Estimation [75.45968495410048]
我々は、任意の正半定値(PSD)$A$に対して、$(1 pm epsilon)$を$tr(A)$に近似する新しいランダム化アルゴリズムであるHutch++を導入する。
実験ではハッチンソン法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2020-10-19T16:45:37Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。