論文の概要: An Over-parameterized Exponential Regression
- arxiv url: http://arxiv.org/abs/2303.16504v1
- Date: Wed, 29 Mar 2023 07:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:48:41.318349
- Title: An Over-parameterized Exponential Regression
- Title(参考訳): 過パラメータの指数回帰
- Authors: Yeqi Gao, Sridhar Mahadevan, Zhao Song
- Abstract要約: LLM(Large Language Models)の分野での最近の発展は、指数的アクティベーション関数の使用への関心を喚起している。
ニューラル関数 $F: mathbbRd times m times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRdd
- 参考スコア(独自算出の注目度): 18.57735939471469
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Over the past few years, there has been a significant amount of research
focused on studying the ReLU activation function, with the aim of achieving
neural network convergence through over-parametrization. However, recent
developments in the field of Large Language Models (LLMs) have sparked interest
in the use of exponential activation functions, specifically in the attention
mechanism.
Mathematically, we define the neural function $F: \mathbb{R}^{d \times m}
\times \mathbb{R}^d \rightarrow \mathbb{R}$ using an exponential activation
function. Given a set of data points with labels $\{(x_1, y_1), (x_2, y_2),
\dots, (x_n, y_n)\} \subset \mathbb{R}^d \times \mathbb{R}$ where $n$ denotes
the number of the data. Here $F(W(t),x)$ can be expressed as $F(W(t),x) :=
\sum_{r=1}^m a_r \exp(\langle w_r, x \rangle)$, where $m$ represents the number
of neurons, and $w_r(t)$ are weights at time $t$. It's standard in literature
that $a_r$ are the fixed weights and it's never changed during the training. We
initialize the weights $W(0) \in \mathbb{R}^{d \times m}$ with random Gaussian
distributions, such that $w_r(0) \sim \mathcal{N}(0, I_d)$ and initialize $a_r$
from random sign distribution for each $r \in [m]$.
Using the gradient descent algorithm, we can find a weight $W(T)$ such that
$\| F(W(T), X) - y \|_2 \leq \epsilon$ holds with probability $1-\delta$, where
$\epsilon \in (0,0.1)$ and $m = \Omega(n^{2+o(1)}\log(n/\delta))$. To optimize
the over-parameterization bound $m$, we employ several tight analysis
techniques from previous studies [Song and Yang arXiv 2019, Munteanu, Omlor,
Song and Woodruff ICML 2022].
- Abstract(参考訳): 過去数年間、過剰なパラメータ化によるニューラルネットワーク収束の実現を目的として、ReLUアクティベーション機能の研究に焦点をあてた研究が多数行われている。
しかし、近年のLLM(Large Language Models)分野の発展は、特に注意機構における指数的アクティベーション関数の使用への関心を喚起している。
数学的には、指数的アクティベーション関数を用いて、神経関数 $F: \mathbb{R}^{d \times m} \times \mathbb{R}^d \rightarrow \mathbb{R}$ を定義する。
ラベルが $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\} \subset \mathbb{R}^d \times \mathbb{R}$ ここで$n$ はデータの数を表す。
ここで $f(w(t),x)$ は $f(w(t),x) := \sum_{r=1}^m a_r \exp(\langle w_r, x \rangle)$ と表現できる。
文学では、$a_r$が固定重みであり、トレーニング中に変更されることはない。
w(0) \in \mathbb{r}^{d \times m}$ をランダムなガウス分布で初期化し、$w_r(0) \sim \mathcal{n}(0, i_d)$ とし、$r \in [m]$ ごとにランダム符号分布から$a_r$ を初期化する。
勾配降下アルゴリズムを用いて、$\| F(W(T, X) - y \|_2 \leq \epsilon$ が確率 $1-\delta$ で成り立つような重量 $W(T)$ を見つけることができ、$\epsilon \in (0,0.1)$ と $m = \Omega(n^{2+o(1)}\log(n/\delta))$ が成り立つ。
オーバーパラメータ化を最適化するために,従来の研究(Song arXiv 2019,Munteanu,Omlor,Song,Woodruff ICML 2022)から,いくつかの厳密な分析手法を採用した。
関連論文リスト
- Iterative thresholding for non-linear learning in the strong $\varepsilon$-contamination model [3.309767076331365]
閾値降下を用いた単一ニューロンモデル学習のための近似境界を導出する。
線形回帰問題も研究し、$sigma(mathbfx) = mathbfx$ となる。
論文 参考訳(メタデータ) (2024-09-05T16:59:56Z) - Sample-Efficient Linear Regression with Self-Selection Bias [7.605563562103568]
未知のインデックス設定における自己選択バイアスを伴う線形回帰の問題を考察する。
我々は,$mathbfw_1,ldots,mathbfw_kinを復元する,新しい,ほぼ最適なサンプル効率($k$)アルゴリズムを提案する。
このアルゴリズムは雑音の仮定をかなり緩めることに成功し、従って関連する最大線形回帰の設定にも成功している。
論文 参考訳(メタデータ) (2024-02-22T02:20:24Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Optimal Estimator for Linear Regression with Shuffled Labels [17.99906229036223]
本稿では,シャッフルラベルを用いた線形回帰の課題について考察する。
mathbb Rntimes m の $mathbf Y、mathbb Rntimes p の mathbf Pi、mathbb Rptimes m$ の mathbf B、mathbb Rntimes m$ の $mathbf Win mathbb Rntimes m$ である。
論文 参考訳(メタデータ) (2023-10-02T16:44:47Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix
Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。
目標は、低ランク因子の積として$mathbfA$を近似することである。
我々の手法はBMF問題の他の一般的な変種に一般化する。
論文 参考訳(メタデータ) (2023-06-02T18:55:27Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Algorithms and Hardness for Linear Algebra on Geometric Graphs [14.822517769254352]
グリーンガードとロークリンの有名な高速多重極法における次元$dの指数的依存は改善できないことを示す。
これは高速多重極法について証明された最初の公式な制限である。
論文 参考訳(メタデータ) (2020-11-04T18:35:02Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。