論文の概要: Stochastic Rounding Implicitly Regularizes Tall-and-Thin Matrices
- arxiv url: http://arxiv.org/abs/2403.12278v3
- Date: Fri, 06 Dec 2024 19:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:47:14.324640
- Title: Stochastic Rounding Implicitly Regularizes Tall-and-Thin Matrices
- Title(参考訳): 急激な正則化を図った確率的ラウンドリング
- Authors: Gregory Dexter, Christos Boutsikas, Linkai Ma, Ilse C. F. Ipsen, Petros Drineas,
- Abstract要約: 我々は列よりも多くの行を持つ実$mathbfA$のニアネス丸めを考える。
高い確率で、円行列の最小特異値はゼロからかなり離れている。
我々は、ランダム行列理論における強力な結果と、丸め誤差が低次元列空間に集中しないという考えを利用する。
- 参考スコア(独自算出の注目度): 5.324425600601921
- License:
- Abstract: Motivated by the popularity of stochastic rounding in the context of machine learning and the training of large-scale deep neural network models, we consider stochastic nearness rounding of real matrices $\mathbf{A}$ with many more rows than columns. We provide novel theoretical evidence, supported by extensive experimental evaluation that, with high probability, the smallest singular value of a stochastically rounded matrix is well bounded away from zero -- regardless of how close $\mathbf{A}$ is to being rank deficient and even if $\mathbf{A}$ is rank-deficient. In other words, stochastic rounding \textit{implicitly regularizes} tall and skinny matrices $\mathbf{A}$ so that the rounded version has full column rank. Our proofs leverage powerful results in random matrix theory, and the idea that stochastic rounding errors do not concentrate in low-dimensional column spaces.
- Abstract(参考訳): 機械学習の文脈における確率的ラウンドリングの人気と大規模ディープニューラルネットワークモデルの訓練により、実行列の確率的近接性ラウンドリングは列よりも多くの行を持つと考えられる。
確率の高い確率で、確率的に丸い行列の最小特異値がゼロから十分離れているという新しい理論的な証拠を提供する。
言い換えれば、確率的丸み付け \textit{implicitly regularizes} の高さと細い行列は $\mathbf{A}$ であり、丸み付きバージョンは全列ランクを持つ。
我々の証明はランダム行列理論の強力な結果を利用しており、確率的丸め誤差は低次元の列空間に集中しないという考え方である。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Matrix Compression via Randomized Low Rank and Low Precision
Factorization [47.902465710511485]
現代の行列は数十億の要素を巻き込み、そのストレージと処理は計算資源とメモリ使用量の観点から非常に要求される。
この構造を利用して任意の行列 $mathbfA$ as $mathbfLmathbfR$ の低階分解を求めるアルゴリズムを提案する。
LlaMa-7$bの層を圧縮し,画像圧縮におけるアルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-10-17T06:56:57Z) - One-sided Matrix Completion from Two Observations Per Row [95.87811229292056]
行列の欠落値を$XTX$で計算する自然アルゴリズムを提案する。
合成データの一方の回収と低被覆ゲノムシークエンシングについて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2023-06-06T22:35:16Z) - On the well-spread property and its relation to linear regression [4.619541348328937]
頑健な線形回帰モデルにおけるパラメータベクトルの一貫した回復は情報理論上不可能であることを示す。
与えられた$n$-by-d$行列が、周囲の次元で観測回数が二次的である場合、適切に証明できることが示される。
論文 参考訳(メタデータ) (2022-06-16T11:17:44Z) - Eigenvalue Distribution of Large Random Matrices Arising in Deep Neural
Networks: Orthogonal Case [1.6244541005112747]
本論文は, 入力出力ヤコビアンの無限幅限界における入力出力ヤコビアンの特異値の分布を取り扱う。
これらの場合、無限幅の極限におけるヤコビアンの特異値分布は、特別なランダムだがウェイト独立な対角行列を持つヤコビアンの類似値と一致すると主張された。
論文 参考訳(メタデータ) (2022-01-12T16:33:47Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Sparse Factorization of Large Square Matrices [10.94053598642913]
本稿では,大面積の正方行列とスパースフルランク行列の積を近似する。
近似では、我々の手法は$Ntimes N$ full matrix に対して$N(log N)2$ non-zero number しか必要としない。
近似行列がスパースかつハイランクである場合,本手法により近似精度が向上することを示す。
論文 参考訳(メタデータ) (2021-09-16T18:42:21Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - Unique sparse decomposition of low rank matrices [17.037882881652617]
低階行列Yin mathbbRrtimes n$ のユニークな分解が見つかる。
我々は、ある$Yin MathRrtimes n$が$Xin mathbbRrtimes n$のスパースワイズ分解であることを示す。
論文 参考訳(メタデータ) (2021-06-14T20:05:59Z) - Algebraic and geometric structures inside the Birkhoff polytope [0.0]
Birkhoff polytope $mathcalB_d$ は位数 $d$ のすべての双確率行列からなる。
我々は、$mathcalL_d$ と $mathcalF_d$ が平面行列に対して星型であることを証明する。
論文 参考訳(メタデータ) (2021-01-27T09:51:24Z) - Optimal Iterative Sketching with the Subsampled Randomized Hadamard
Transform [64.90148466525754]
最小二乗問題に対する反復スケッチの性能について検討する。
本研究では、Haar行列とランダム化されたHadamard行列の収束速度が同一であることを示し、ランダムなプロジェクションを経時的に改善することを示した。
これらの手法は、ランダム化次元還元を用いた他のアルゴリズムにも適用することができる。
論文 参考訳(メタデータ) (2020-02-03T16:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。