論文の概要: Dropout Universality: Scaling Laws and Optimal Scheduling at the Edge-of-Chaos
- arxiv url: http://arxiv.org/abs/2605.21648v1
- Date: Wed, 20 May 2026 19:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.964995
- Title: Dropout Universality: Scaling Laws and Optimal Scheduling at the Edge-of-Chaos
- Title(参考訳): Dropout Universality: カオスのエッジにおけるスケーリング法則と最適スケジューリング
- Authors: Lucas Fernandez Sarmiento,
- Abstract要約: 我々は,カオスの端における臨界信号伝搬の摂動として,ドロップアウトの平均場理論を開発する。
相関崩壊に対する臨界およびクロスオーバースケーリング法則を導出し、滑らかな活性化とキンクされたReLU様の活性化が異なるクラスであることを示す。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a mean-field theory of dropout as a perturbation of critical signal propagation at the edge of chaos. Dropout shifts the perfect-alignment fixed point, making the depth scale for information propagation finite even at critical initialization. We derive critical and crossover scaling laws for correlation decay and establish that smooth activations and kinked, ReLU-like activations constitute distinct universality classes, with different critical exponents and a universal two-parameter scaling collapse in detuning and dropout strength. The distinction traces to the analytic structure of the correlation map: smooth activations admit a Taylor expansion near perfect alignment, while kinked activations develop a branch point with universal non-analyticity. As a corollary, the framework yields saturated dropout profiles under fixed budget; a rank-flow tie-breaker then selects front-loaded schedules, substantially reducing held-out test loss at no extra computational cost, with accuracy gains as a consistent secondary effect. We test the predictions in MLPs and Vision Transformers and discuss CNN/ResNet extensions.
- Abstract(参考訳): 我々は,カオスの端における臨界信号伝搬の摂動として,ドロップアウトの平均場理論を開発する。
ドロップアウトは完全配向固定点をシフトし、臨界初期化においても情報伝播の深さスケールを有限にする。
相関崩壊に対する臨界およびクロスオーバースケーリング法則を導出し、滑らかなアクティベーションとキネクティックなReLU様のアクティベーションが、異なる臨界指数とデチューニングおよびドロップアウト強度における普遍的な2パラメータスケーリング崩壊を持つ、異なる普遍性クラスを構成することを証明した。
滑らかなアクティベーションはテイラー展開を完全アライメントの近くで許容する一方、キンクアクティベーションは普遍的非解析性を持つ分岐点を発達させる。
その後、ランクフロータイブレーカは、前負荷のスケジュールを選択し、余分な計算コストを伴わずにホールドアウトテスト損失を大幅に低減し、一貫した二次効果として精度向上を図る。
MLPとVision Transformersで予測を検証し、CNN/ResNet拡張について議論する。
関連論文リスト
- The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity [22.040532283910522]
この研究は、この現象のテクトメカニスティックな説明を提供する。
我々はそのルーツを自己注意に固有の価値集約プロセスに遡る。
概念実証として,事前学習時の値アグリゲーション出力を安定化するアーキテクチャ変更であるtextithead-wise RMSNormを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:28:55Z) - The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology [0.0]
巡回加法(Zp)を訓練した変圧器のグルーキング-遅れ一般化に関する研究
標準変圧器における2つの独立した構造因子:表現の大きさとデータ依存型アテンションルーティングを同定する。
論文 参考訳(メタデータ) (2026-03-05T14:41:01Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Localization from Infinitesimal Kinetic Grading: Critical Scaling and Kibble-Zurek Universality [0.0]
位置依存型近傍ホッピング振幅を持つ一次元格子モデルについて, パワーロープロファイルに従って検討した。
熱力学の極限では、基底状態は$||から0$として局所化され、局所化長のばらつきを特徴とする臨界点の存在を示唆する。
本研究は, 光学格子および超低温原子配列に関連し, 工学的なホッピングプロファイルを付加した, 清潔で無秩序な局所化経路を示すものである。
論文 参考訳(メタデータ) (2025-12-16T17:26:06Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。