Fugu-MT 論文翻訳(概要): Dynamical structure of vanishing gradient and overfitting in multi-layer perceptrons

論文の概要: Dynamical structure of vanishing gradient and overfitting in multi-layer perceptrons

arxiv url: http://arxiv.org/abs/2604.02393v1
Date: Thu, 02 Apr 2026 11:40:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.139934
Title: Dynamical structure of vanishing gradient and overfitting in multi-layer perceptrons
Title（参考訳）: 多層パーセプトロンにおける消滅勾配とオーバーフィッティングの動的構造
Authors: Alex Alì Maleknia, Yuzuru Sato,
Abstract要約: バニシング勾配とオーバーフィッティングは、機械学習に関する文献で最も広く研究されている問題の2つだ。福水・阿利らの研究に触発された最小限のモデルを導入し, 勾配勾配の消失と勾配勾配による過度適応について検討した。学習力学は,訓練中に高原地域および準最適地域を通過し,どちらもサドル構造で構成されていることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vanishing gradient and overfitting are two of the most extensively studied problems in the literature about machine learning. However, they are frequently considered in some asymptotic setting, which obscure the underlying dynamical mechanisms responsible for their emergence. In this paper, we aim to provide a clear dynamical description of learning in multi-layer perceptrons. To this end, we introduce a minimal model, inspired by studies by Fukumizu and Amari, to investigate vanishing gradients and overfitting in MLPs trained via gradient descent. Within this model, we show that the learning dynamics may pass through plateau regions and near-optimal regions during training, both of which consist of saddle structures, before ultimately converging to the overfitting region. Under suitable conditions on the training dataset, we prove that, with high probability, the overfitting region collapses to a single attractor modulo symmetry, which corresponds to the overfitting. Moreover, we show that any MLP trained on a finite noisy dataset cannot converge to the theoretical optimum and instead necessarily converges to an overfitting solution.
Abstract（参考訳）: バニシング勾配とオーバーフィッティングは、機械学習に関する文献で最も広く研究されている問題の2つだ。しかし、それらはしばしば、その出現の原因となる力学機構を曖昧にするような漸近的な状態にあると考えられている。本稿では,多層パーセプトロンにおける学習の動的記述を明確にすることを目的とする。そこで本研究では, 勾配勾配勾配を学習したMLPの消失勾配と過度適合性を検討するために, 福水・阿里の研究に触発された最小モデルを提案する。本モデルでは,学習力学が訓練中に高原地域や準最適地域を通過する可能性を示し,両者はサドル構造からなり,最終的にはオーバーフィット領域に収束することを示した。トレーニングデータセットの適切な条件下では、オーバーフィッティング領域は高い確率で1つのアトラクターモジュロ対称性に崩壊し、オーバーフィッティングに対応することが証明される。さらに、有限ノイズデータセットで訓練された任意のMLPは、理論的な最適値に収束せず、必ずしも過適合解に収束することを示した。

関連論文リスト

Emergent Low-Rank Training Dynamics in MLPs with Smooth Activations [14.896223045496301]
最近の経験的証拠は、大規模深層ニューラルネットワークのトレーニング力学が低次元部分空間内で起こることを証明している。本稿では,多層パーセプトロン(MLP)の降下(GD)下での学習動態を解析する。重み力学は、トレーニングを通して不変な低次元部分空間に集中することを実証する。
論文参考訳（メタデータ） (2026-02-05T21:38:17Z)
Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [0.0]
大規模言語モデルは、事前学習と微調整のパラダイムを通じて、多様なタスクにまたがる顕著なパフォーマンスを示す。逐次的タスクの連続的な微調整は破滅的な忘れを招き、新たに取得した知識は以前に学習された能力に干渉する。注意重みの勾配干渉、中間層における表現的ドリフト、および損失景観平坦化の3つの主要なメカニズムを同定する。
論文参考訳（メタデータ） (2026-01-26T17:15:10Z)
Gradient flow for deep equilibrium single-index models [32.2015869030351]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、無限に深い重み付きニューラルネットワークをトレーニングするための強力なパラダイムとして登場した。線形モデルと単一インデックスモデルの簡単な設定でDECの勾配勾配勾配ダイナミクスを厳密に研究する。次に、線形DQと深い平衡単インデックスモデルに対する大域最小化器への勾配勾配勾配の線形収束を証明した。
論文参考訳（メタデータ） (2025-11-21T06:14:41Z)
Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-29T05:03:29Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文参考訳（メタデータ） (2023-04-25T15:53:45Z)
Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文参考訳（メタデータ） (2023-03-05T00:57:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。