論文の概要: How and When Random Feedback Works: A Case Study of Low-Rank Matrix
Factorization
- arxiv url: http://arxiv.org/abs/2111.08706v1
- Date: Wed, 17 Nov 2021 00:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 23:53:25.181129
- Title: How and When Random Feedback Works: A Case Study of Low-Rank Matrix
Factorization
- Title(参考訳): ランダムフィードバックの働き方とタイミング:低ランク行列因子化の事例研究
- Authors: Shivam Garg, Santosh S. Vempala
- Abstract要約: フィードバックアライメント(FA)の仕組みについて検討する。
FAは階層構造に関する最も基本的な問題の1つである低ランク行列分解に焦点を当てている。
FA は $rge mboxrank(Y)$ のとき最適解に収束することを示す。
また、$r mboxrank(Y)$ のとき、FA が最適ではないことも示します。
- 参考スコア(独自算出の注目度): 14.285360522562526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of gradient descent in ML and especially for learning neural
networks is remarkable and robust. In the context of how the brain learns, one
aspect of gradient descent that appears biologically difficult to realize (if
not implausible) is that its updates rely on feedback from later layers to
earlier layers through the same connections. Such bidirected links are
relatively few in brain networks, and even when reciprocal connections exist,
they may not be equi-weighted. Random Feedback Alignment (Lillicrap et al.,
2016), where the backward weights are random and fixed, has been proposed as a
bio-plausible alternative and found to be effective empirically. We investigate
how and when feedback alignment (FA) works, focusing on one of the most basic
problems with layered structure -- low-rank matrix factorization. In this
problem, given a matrix $Y_{n\times m}$, the goal is to find a low rank
factorization $Z_{n \times r}W_{r \times m}$ that minimizes the error
$\|ZW-Y\|_F$. Gradient descent solves this problem optimally. We show that FA
converges to the optimal solution when $r\ge \mbox{rank}(Y)$. We also shed
light on how FA works. It is observed empirically that the forward weight
matrices and (random) feedback matrices come closer during FA updates. Our
analysis rigorously derives this phenomenon and shows how it facilitates
convergence of FA. We also show that FA can be far from optimal when $r <
\mbox{rank}(Y)$. This is the first provable separation result between gradient
descent and FA. Moreover, the representations found by gradient descent and FA
can be almost orthogonal even when their error $\|ZW-Y\|_F$ is approximately
equal.
- Abstract(参考訳): MLにおける勾配降下の成功、特にニューラルネットワークの学習は目覚ましい、堅牢である。
脳がどのように学習するかという文脈において、生物学的に理解が難しい勾配降下の1つの側面は、その更新が後の層からそれ以前の層へのフィードバックに依存していることである。
このような双方向リンクは脳ネットワークでは比較的少なく、相互接続が存在する場合でも同等重み付けされない可能性がある。
後ろ向きの重みがランダムで固定されたランダムフィードバックアライメント(lillicrap et al., 2016)は、バイオプラッシブルな代替案として提案され、実証的に有効であることが判明した。
階層構造における最も基本的な問題である低ランク行列因子分解に着目し,フィードバックアライメント(fa)の動作方法と時期を調査した。
この問題において、行列 $Y_{n\times m}$ が与えられたとき、目標は、誤差 $\|ZW-Y\|_F$ を最小化する低階分解 $Z_{n \times r}W_{r \times m}$ を見つけることである。
勾配降下はこの問題を最適に解く。
FA が最適解に収束するのは $r\ge \mbox{rank}(Y)$ のときである。
FAの仕組みにも光を当てています。
fa更新中に前方重量行列と(ランダムな)フィードバック行列が近づくことが実証的に観察される。
我々の分析は、この現象を厳格に導き出し、FAの収束を促進する方法を示している。
また、$r < \mbox{rank}(Y)$ のとき、FA が最適ではないことも示します。
これは勾配降下とfaの間の最初の証明可能な分離結果である。
さらに、勾配降下と FA から得られる表現は、誤差 $\|ZW-Y\|_F$ がほぼ等しい場合でもほぼ直交である。
関連論文リスト
- Optimal level set estimation for non-parametric tournament and crowdsourcing problems [49.75262185577198]
クラウドソーシングによって動機づけられた我々は、$d$の質問に対する$n$の専門家の回答の正しさを部分的に観察する問題を考える。
本稿では、専門家$i$が疑問に答える確率を含む行列$M$が、行と列の置換までの双等方性であることを仮定する。
我々は,この分類問題に対して最小限のアルゴリズムを最適に構築する。
論文 参考訳(メタデータ) (2024-08-27T18:28:31Z) - Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Approximating Positive Homogeneous Functions with Scale Invariant Neural
Networks [28.2446416597989]
まず,数直線測定によるスパースベクトルの回復について考察する。
この結果から,低ランク行列回復や位相回復を含む,より広範な回復問題に拡張する。
我々の結果は、逆問題に対するニューラルネットワークが典型的に非常に大きなリプシッツ定数を持つことを示す以前の研究の矛盾のように見えることに光を当てた。
論文 参考訳(メタデータ) (2023-08-05T10:17:04Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - Optimal Gradient Sliding and its Application to Distributed Optimization
Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。
エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。
提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文 参考訳(メタデータ) (2022-05-30T14:28:02Z) - Implicit Regularization Towards Rank Minimization in ReLU Networks [34.41953136999683]
ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
論文 参考訳(メタデータ) (2022-01-30T09:15:44Z) - Most ReLU Networks Suffer from $\ell^2$ Adversarial Perturbations [27.374589803147025]
本稿では,各層で寸法が減少するランダム重み付きReLUネットワークについて考察する。
ほとんどの例では、ユークリッド距離が$Oleft(frac|x|sqrtdright)$で、$d$は入力次元である。
論文 参考訳(メタデータ) (2020-10-28T12:42:22Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。