論文の概要: A prism hierarchy of learning regimes in large linear autoencoders
- arxiv url: http://arxiv.org/abs/2606.05335v1
- Date: Wed, 03 Jun 2026 18:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.339939
- Title: A prism hierarchy of learning regimes in large linear autoencoders
- Title(参考訳): 大規模線形オートエンコーダにおける学習体制のプリズム階層
- Authors: Eugene Golikov, Yaroslav Gusev, Dmitry Yarotsky,
- Abstract要約: 形式的損失拡大階層のレベルでは、その極端な構造は三角形のプリズムの面と自然に関連していることを示す。
特に、プリズムの2面に付随する5つの基本的な極端規則が存在する:(1)大データ、(2)小データ、(3)平均場、(4)狭ラテント、(5)自由である。
- 参考スコア(独自算出の注目度): 16.079947052768205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theoretical studies of machine learning models commonly consider different limiting regimes in which the learning dynamics of gradient descent becomes theoretically tractable. It is, however, desirable to have a systematically obtained picture of all qualitatively different extreme learning regimes for a particular type of models. In this paper we propose such a picture for large weight-tied linear autoencoders characterized by input and latent dimensions, initialization magnitude, and training set size. This model is nonlinear in the weights and its gradient flow does not have a general theoretical solution. We show that at the level of the formal loss-expansion hierarchy, its extreme regimes are naturally associated with faces of a triangular prism. In particular, there are five basic extreme regimes associated with the 2-faces of the prism: (1) large-data, (2) small-data, (3) mean-field, (4) narrow-latent, and (5) free. For regimes (1,2,3,4), we derive explicit expressions for both train and population limiting loss evolutions under gradient flow, obtaining very good agreement with experimental results.
- Abstract(参考訳): 機械学習モデルの理論的研究は一般的に、勾配降下の学習力学が理論的に引くことができるような異なる制限条件を考える。
しかし、特定のタイプのモデルに対して、定性的に異なる極端学習体制を体系的に取得することが望ましい。
本稿では,入力次元と潜時次元,初期化サイズ,トレーニングセットサイズを特徴とする大規模重み付き線形オートエンコーダを提案する。
このモデルは重みにおいて非線形であり、勾配流は一般的な理論解を持たない。
形式的損失拡大階層のレベルでは、その極端な構造は三角形のプリズムの面と自然に関連していることを示す。
特に、プリズムの2面に付随する5つの基本的な極端規則が存在する:(1)大データ、(2)小データ、(3)平均場、(4)狭ラテント、(5)自由である。
1,2,3,4) に対して, 勾配流下での損失の進行を制限する列車と人口の双方に対して, 明確な表現を導出し, 実験結果とよく一致した。
関連論文リスト
- Gradient Flow Through Diagram Expansions: Learning Regimes and Explicit Solutions [16.079947052768205]
本研究では,スケーリングレジームを解析し,勾配流問題に対する明示的な解析解を導出する一般的なフレームワークを開発する。
鍵となる革新は損失進化の形式的なパワー級数展開であり、係数はファインマン図形に似た図形でエンコードされる。
この拡張は、異なる学習フェーズを明らかにするために使用可能な、明確に定義された大規模な制限を持つことを示す。
論文 参考訳(メタデータ) (2026-02-04T13:38:57Z) - Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。
特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。
本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文 参考訳(メタデータ) (2025-06-16T06:54:08Z) - Precise gradient descent training dynamics for finite-width multi-layer neural networks [8.057006406834466]
一般多層ニューラルネットワークにおける勾配降下繰り返しの正確な分布解析を行った。
我々の非漸近状態進化理論は、第一層重みのガウス的ゆらぎと深層重みの集中を捉えている。
論文 参考訳(メタデータ) (2025-05-08T02:19:39Z) - Gradient descent inference in empirical risk minimization [1.1510009152620668]
勾配降下法は、現代の統計学習において最も広く使われている反復アルゴリズムの1つである。
本稿では,多種多様な経験的リスク最小化問題における勾配降下の精度,非漸近的特性について述べる。
論文 参考訳(メタデータ) (2024-12-12T17:47:08Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
余剰モデル層で出現するエポックな2重降下の要因を同定した。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文 参考訳(メタデータ) (2024-07-13T10:45:21Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Three Mechanisms of Feature Learning in a Linear Network [0.34530027457862006]
有限幅の1次元データを用いた一層線形ネットワークの学習力学の正確な解を提案する。
特徴学習システムに特有の3つの新しいプロトタイプメカニズムを同定する。
実世界のタスクを扱うディープ非線形ネットワークにおいても,これらのメカニズムが現れることを示す実証的な証拠が得られた。
論文 参考訳(メタデータ) (2024-01-13T14:21:46Z) - Surf-D: Generating High-Quality Surfaces of Arbitrary Topologies Using Diffusion Models [83.35835521670955]
Surf-Dは任意の位相を持つ表面として高品質な3次元形状を生成する新しい方法である。
非符号距離場(UDF)を曲面表現として用いて任意の位相を許容する。
また、ポイントベースのAutoEncoderを用いて、UDFを正確に符号化するためのコンパクトで連続的な潜在空間を学習する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:56:01Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。