論文の概要: Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sample Complexity
- arxiv url: http://arxiv.org/abs/2512.04165v2
- Date: Sat, 06 Dec 2025 16:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 13:50:38.545007
- Title: Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sample Complexity
- Title(参考訳): 詳細曲線の修正: 特徴学習とサンプル複雑度のためのスケーリング引数
- Authors: Noa Rubin, Orit Davidovich, Zohar Ringel,
- Abstract要約: 深層学習理論における2つの重要なトピックは、特徴学習機構の解釈と、豊かな体制におけるネットワークの暗黙の偏見の決定である。
本稿では,特徴学習の様々なパターンが出現するデータと幅のスケールを予測するための強力な経路を提案する。
- 参考スコア(独自算出の注目度): 6.678130184505637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two pressing topics in the theory of deep learning are the interpretation of feature learning mechanisms and the determination of implicit bias of networks in the rich regime. Current theories of rich feature learning, often appear in the form of high-dimensional non-linear equations, which require computationally intensive numerical solutions. Furthermore, even under such limiting settings, predictions often appear in the form of high-dimensional non-linear equations, which require computationally intensive numerical solutions. Given the many details that go into defining a deep learning problem, this analytical complexity is a significant and often unavoidable challenge. Here, we propose a powerful heuristic route for predicting the data and width scales at which various patterns of feature learning emerge. This form of scale analysis is considerably simpler than such exact theories and reproduces the scaling exponents of various known results. In addition, we make novel predictions on complex toy architectures, such as three-layer non-linear networks and attention heads, thus extending the scope of first-principle theories of deep learning.
- Abstract(参考訳): 深層学習理論における2つの重要なトピックは、特徴学習機構の解釈と、豊かな体制におけるネットワークの暗黙のバイアスの決定である。
リッチ特徴学習の現在の理論は、しばしば計算集約的な数値解を必要とする高次元非線形方程式の形で現れる。
さらに、そのような制限条件下であっても、予測は計算集約的な数値解を必要とする高次元非線形方程式の形で現れることが多い。
ディープラーニングの問題を定義するための多くの詳細を考えれば、この分析的な複雑さは重要であり、しばしば避けられない課題である。
本稿では,特徴学習の様々なパターンが出現するデータと幅のスケールを予測するための強力なヒューリスティックな経路を提案する。
このスケール分析の形式は、これらの正確な理論よりもかなり単純であり、様々な既知の結果のスケーリング指数を再現する。
さらに,3層非線形ネットワークやアテンションヘッドといった複雑な玩具のアーキテクチャについて新たな予測を行い,深層学習の第一原理理論の範囲を広げた。
関連論文リスト
- Statistical physics of deep learning: Optimal learning of a multi-layer perceptron near interpolation [7.079039376205091]
多層パーセプトロンの教師あり学習について検討する。
トレーニング可能なパラメータとデータの数が同等となる、困難な状況に注目します。
その単純さにもかかわらず、ベイズ最適設定は、深さ、非線形性、および有限幅がニューラルネットワークにどのように影響するかについての洞察を与える。
論文 参考訳(メタデータ) (2025-10-28T16:44:34Z) - Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。
特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。
本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文 参考訳(メタデータ) (2025-06-16T06:54:08Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Foundations and Frontiers of Graph Learning Theory [81.39078977407719]
グラフ学習の最近の進歩は、複雑な構造を持つデータを理解し分析する方法に革命をもたらした。
グラフニューラルネットワーク(GNN)、すなわちグラフ表現を学習するために設計されたニューラルネットワークアーキテクチャは、一般的なパラダイムとなっている。
本稿では,グラフ学習モデルに固有の近似と学習行動に関する理論的基礎とブレークスルーについて概説する。
論文 参考訳(メタデータ) (2024-07-03T14:07:41Z) - An Information-Theoretic Framework for Supervised Learning [22.280001450122175]
後悔とサンプルの複雑さという独自の概念を持つ新しい情報理論フレームワークを提案する。
本稿では、ReLUアクティベーションユニットを用いたディープニューラルネットワークによって生成されたデータから学習する際のサンプルの複雑さについて検討する。
我々は、ランダムな単層ニューラルネットワークの実験的な解析により、理論結果を裏付けることで結論付ける。
論文 参考訳(メタデータ) (2022-03-01T05:58:28Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。