論文の概要: AlgebraNets
- arxiv url: http://arxiv.org/abs/2006.07360v2
- Date: Tue, 16 Jun 2020 16:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:57:42.875165
- Title: AlgebraNets
- Title(参考訳): AlgebraNets
- Authors: Jordan Hoffmann, Simon Schmitt, Simon Osindero, Karen Simonyan, Erich
Elsen
- Abstract要約: 本研究では, enwiki8 と WikiText-103 データセットを用いて代用代数学を数値表現として研究する。
我々は$mathbbC$, $mathbbH$, $M_2(mathbbR)$, $M_3(mathbbR)$, $M_4(mathbbR)$を考える。
これらの代数の乗法は実乗法よりも計算密度が高い。
- 参考スコア(独自算出の注目度): 35.311476442807766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have historically been built layerwise from the set of
functions in ${f: \mathbb{R}^n \to \mathbb{R}^m }$, i.e. with activations and
weights/parameters represented by real numbers, $\mathbb{R}$. Our work
considers a richer set of objects for activations and weights, and undertakes a
comprehensive study of alternative algebras as number representations by
studying their performance on two challenging problems: large-scale image
classification using the ImageNet dataset and language modeling using the
enwiki8 and WikiText-103 datasets. We denote this broader class of models as
AlgebraNets. Our findings indicate that the conclusions of prior work, which
explored neural networks constructed from $\mathbb{C}$ (complex numbers) and
$\mathbb{H}$ (quaternions) on smaller datasets, do not always transfer to these
challenging settings. However, our results demonstrate that there are
alternative algebras which deliver better parameter and computational
efficiency compared with $\mathbb{R}$. We consider $\mathbb{C}$, $\mathbb{H}$,
$M_{2}(\mathbb{R})$ (the set of $2\times2$ real-valued matrices),
$M_{2}(\mathbb{C})$, $M_{3}(\mathbb{R})$ and $M_{4}(\mathbb{R})$. Additionally,
we note that multiplication in these algebras has higher compute density than
real multiplication, a useful property in situations with inherently limited
parameter reuse such as auto-regressive inference and sparse neural networks.
We therefore investigate how to induce sparsity within AlgebraNets. We hope
that our strong results on large-scale, practical benchmarks will spur further
exploration of these unconventional architectures which challenge the default
choice of using real numbers for neural network weights and activations.
- Abstract(参考訳): ニューラルネットワークは歴史的に${f: \mathbb{R}^n \to \mathbb{R}^m }$、すなわち実数で表される活性化と重み/パラメータ、$\mathbb{R}$の関数集合から階層的に構築されてきた。
本研究では,アクティベーションと重み付けのためのリッチなオブジェクトセットを検討するとともに,画像Netデータセットを用いた大規模画像分類と,enwiki8データセットとWikiText-103データセットを用いた言語モデリングという2つの課題において,代用代数学を数値表現として包括的に研究する。
我々はこのより広いモデルのクラスを代数ネットと表現する。
その結果,より小さなデータセット上の$\mathbb{C}$(複素数)と$\mathbb{H}$(四元数)から構築されたニューラルネットワークを探索した先行研究の結論は,必ずしもこれらの困難な設定に移行するとは限らないことがわかった。
しかし,この結果から,$\mathbb{R}$よりも優れたパラメータと計算効率を実現する代用代数学が存在することが示された。
我々は$\mathbb{C}$, $\mathbb{H}$, $M_{2}(\mathbb{R})$ ( 2 つの実数値行列の集合)、$M_{2}(\mathbb{C})$, $M_{3}(\mathbb{R})$, $M_{4}(\mathbb{R})$を考える。
さらに,これらの代数学における乗算は実乗算よりも計算密度が高く,自己回帰推論やスパースニューラルネットワークなどのパラメータ再利用が本質的に制限されている状況において有用である。
そこで,代数学におけるスパーシリティの誘導方法について検討する。
大規模で実用的なベンチマークに対する我々の強力な結果が、ニューラルネットワークの重み付けとアクティベーションに実数を使用するデフォルトの選択に挑戦する、非従来型アーキテクチャのさらなる探求を促すことを期待しています。
関連論文リスト
- Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations [40.77319247558742]
目的関数 $f_*:mathbbRdtomathbbR$ を加法構造で学習する際の計算複雑性について検討する。
2層ニューラルネットワークの勾配学習により,$f_*$の大規模なサブセットを効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-17T17:59:17Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Training Fully Connected Neural Networks is $\exists\mathbb{R}$-Complete [4.170994234169557]
InpiricalRiskmization(英語版)として知られる、与えられたデータポイントのセットに可能な限り適合する2層完全連結ニューラルネットワークの重みとバイアスを求める問題を考察する。
任意のデータポイントが有理である場合でも、いくつかのインスタンスを最適に訓練できるウェイトとして、任意の大きな次数の代数数が必要であることを証明します。
この結果、Basu, Mianjy, Mukherjee [ICLR 2018]のような検索アルゴリズムは、$mathsfNP=existsでない限り、複数の出力次元を持つネットワークでは不可能である。
論文 参考訳(メタデータ) (2022-04-04T10:28:11Z) - Deep Learning in High Dimension: Neural Network Approximation of
Analytic Functions in $L^2(\mathbb{R}^d,\gamma_d)$ [0.0]
解析関数 $f:mathbbRdtomathbbR$ の式率を $L2(mathbbRd,gamma_d)$ のノルムで証明する。
特に、整数 $kgeq 2$ に対する ReLU と ReLU$k$ のアクティベーションを考える。
対数ガウス確率場入力による楕円型PDEの応答面に対する深いReLU-NNの表現速度境界を証明した。
論文 参考訳(メタデータ) (2021-11-13T09:54:32Z) - Efficient Algorithms for Learning Depth-2 Neural Networks with General
ReLU Activations [27.244958998196623]
一般のReLUアクティベーションを用いた未知の深度2フィードフォワードニューラルネットワークを学習するための時間とサンプル効率のアルゴリズムを提案する。
特に、f(x) = amathsfTsigma(WmathsfTx+b)$, ここで$x$はガウス分布から引き出され、$sigma(t) := max(t,0)$はReLU活性化である。
論文 参考訳(メタデータ) (2021-07-21T17:06:03Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。