論文の概要: On the Modularity of Hypernetworks
- arxiv url: http://arxiv.org/abs/2002.10006v2
- Date: Mon, 2 Nov 2020 12:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:30:14.394477
- Title: On the Modularity of Hypernetworks
- Title(参考訳): ハイパーネットワークのモジュール性について
- Authors: Tomer Galanti, Lior Wolf
- Abstract要約: 構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
- 参考スコア(独自算出の注目度): 103.1147622394852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of learning to map an input $I$ to a function
$h_I:\mathcal{X}\to \mathbb{R}$, two alternative methods are compared: (i) an
embedding-based method, which learns a fixed function in which $I$ is encoded
as a conditioning signal $e(I)$ and the learned function takes the form $h_I(x)
= q(x,e(I))$, and (ii) hypernetworks, in which the weights $\theta_I$ of the
function $h_I(x) = g(x;\theta_I)$ are given by a hypernetwork $f$ as
$\theta_I=f(I)$. In this paper, we define the property of modularity as the
ability to effectively learn a different function for each input instance $I$.
For this purpose, we adopt an expressivity perspective of this property and
extend the theory of Devore et al. 1996 and provide a lower bound on the
complexity (number of trainable parameters) of neural networks as function
approximators, by eliminating the requirements for the approximation method to
be robust. Our results are then used to compare the complexities of $q$ and
$g$, showing that under certain conditions and when letting the functions $e$
and $f$ be as large as we wish, $g$ can be smaller than $q$ by orders of
magnitude. This sheds light on the modularity of hypernetworks in comparison
with the embedding-based method. Besides, we show that for a structured target
function, the overall number of trainable parameters in a hypernetwork is
smaller by orders of magnitude than the number of trainable parameters of a
standard neural network and an embedding method.
- Abstract(参考訳): 入力 $i$ を関数 $h_i:\mathcal{x}\to \mathbb{r}$ にマッピングする学習の文脈では、次の2つの方法を比較する: (i) $i$ が条件付け信号 $e(i)$ として符号化され、学習された関数が $h_i(x) = q(x,e(i))$ と (ii) ハイパーネットワークという形式をとる固定関数を学習する埋め込みベースメソッドは、関数 $h_i(x) = g(x;\theta_i)$ のウェイト$\theta_i$ が$\theta_i=f(i)$ で与えられる。
本稿では,モジュール性の特性を,各入力インスタンス$i$に対して,異なる関数を効果的に学習する能力として定義する。
この目的のために,本特性の表現論的視点を採用し,defore et al. 1996の理論を拡張し,近似法が堅牢である必要をなくし,関数近似子としてニューラルネットワークの複雑性(訓練可能なパラメータの数)を低くする。
その結果、ある条件下で、そして、関数に$e$と$f$を希望するほど大きくすると、$g$は、桁違いに$q$よりも小さくなることを示すために、$q$と$g$の複雑さを比較するために使用されます。
これは、埋め込みベースの方法と比較してハイパーネットワークのモジュール性に光を当てている。
また,構造化対象関数の場合,ハイパーネットワーク内のトレーニング可能なパラメータの合計数は,標準ニューラルネットワークや埋め込みメソッドのトレーニング可能なパラメータの数よりも桁違いに小さいことを示す。
関連論文リスト
- Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations [40.77319247558742]
目的関数 $f_*:mathbbRdtomathbbR$ を加法構造で学習する際の計算複雑性について検討する。
2層ニューラルネットワークの勾配学習により,$f_*$の大規模なサブセットを効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-17T17:59:17Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - On the Provable Generalization of Recurrent Neural Networks [7.115768009778412]
リカレントニューラルネットワーク(RNN)のトレーニングと一般化の分析
正規化条件を使わずに関数を学習する一般化誤差を証明した。
また、入力シーケンスのN-変数関数を学習するための新しい結果も証明する。
論文 参考訳(メタデータ) (2021-09-29T02:06:33Z) - On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。
特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation [30.137884459159107]
連続状態と行動空間を用いた強化学習において,Q$関数を効率よく学習する方法を考える。
我々は、$epsilon$-Schmidt $Q$-functionと$widetildeO(frac1epsilonmax(d1, d_2)+2)$のサンプル複雑性を求める単純な反復学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-06-11T00:55:35Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。