論文の概要: A Teacher-Student Perspective on the Dynamics of Learning Near the Optimal Point
- arxiv url: http://arxiv.org/abs/2512.15606v1
- Date: Wed, 17 Dec 2025 17:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.07152
- Title: A Teacher-Student Perspective on the Dynamics of Learning Near the Optimal Point
- Title(参考訳): 最適点付近での学習のダイナミクスに関する教師・学生の視点
- Authors: Carlos Couto, José Mourão, Mário A. T. Figueiredo, Pedro Ribeiro,
- Abstract要約: 本稿では,ネットワークパラメータに対する損失関数のヘシアン行列により,降下力学の学習性能が決定されることを示す。
誤差関数のような一般非線形活性化関数に対しては、ヘッセン行列は常に完全階数であることを経験的に観察する。
- 参考スコア(独自算出の注目度): 2.6704011101972136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Near an optimal learning point of a neural network, the learning performance of gradient descent dynamics is dictated by the Hessian matrix of the loss function with respect to the network parameters. We characterize the Hessian eigenspectrum for some classes of teacher-student problems, when the teacher and student networks have matching weights, showing that the smaller eigenvalues of the Hessian determine long-time learning performance. For linear networks, we analytically establish that for large networks the spectrum asymptotically follows a convolution of a scaled chi-square distribution with a scaled Marchenko-Pastur distribution. We numerically analyse the Hessian spectrum for polynomial and other non-linear networks. Furthermore, we show that the rank of the Hessian matrix can be seen as an effective number of parameters for networks using polynomial activation functions. For a generic non-linear activation function, such as the error function, we empirically observe that the Hessian matrix is always full rank.
- Abstract(参考訳): ニューラルネットワークの最適学習点付近では、ネットワークパラメータに関する損失関数のヘッセン行列により勾配降下ダイナミクスの学習性能が決定される。
教師と学生のネットワークが一致した重みを持つ場合,教師-学生の問題のクラスにおいて,Hessian固有スペクトルを特徴付け,Hessianのより小さな固有値が長時間学習性能を決定することを示す。
線形ネットワークの場合、大規模ネットワークではスペクトルが漸近的にスケールしたカイ二乗分布とスケールしたマルテンコ・パストゥル分布の畳み込みに従うことを解析的に確立する。
我々は多項式や他の非線形ネットワークに対するヘッセンスペクトルを数値解析する。
さらに,Hessian行列のランクは,多項式アクティベーション関数を用いたネットワークのパラメータの有効数と見なせることを示す。
誤差関数のような一般非線形活性化関数に対しては、ヘッセン行列は常に完全階数であることを経験的に観察する。
関連論文リスト
- Geometry and Optimization of Shallow Polynomial Networks [37.10914374024599]
我々は、幅と最適化の関係に着目し、活性化を伴う浅いニューラルネットワークについて研究する。
次に、低ランクテンソル近似の問題とみなすことができる教師学生問題を考える。
特に、すべての臨界点とそのヘッセン符号を特徴づけるエッカート・ヤング定理の変種を示す。
論文 参考訳(メタデータ) (2025-01-10T16:11:27Z) - A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Deep Learning without Global Optimization by Random Fourier Neural Networks [0.0]
本稿では、ランダムな複雑な指数関数活性化関数を利用するディープニューラルネットワークの新しいトレーニングアルゴリズムを提案する。
提案手法では,マルコフ連鎖モンテカルロサンプリング法を用いてネットワーク層を反復的に訓練する。
複雑な指数的活性化関数を持つ残留ネットワークの理論的近似速度を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-16T16:23:40Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet
Energy [103.74640329539389]
特徴選択と識別可能な$k $-NNグラフ学習を同時に行うディープFS法を提案する。
我々は、ニューラルネットワークで$ k $-NNグラフを学習する際の非微分可能性問題に対処するために、最適輸送理論を用いる。
本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。
論文 参考訳(メタデータ) (2023-05-21T08:15:55Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。