論文の概要: Statistical Physics of Deep Neural Networks: Generalization Capability, Beyond the Infinite Width, and Feature Learning
- arxiv url: http://arxiv.org/abs/2501.19281v1
- Date: Fri, 31 Jan 2025 16:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:12.193786
- Title: Statistical Physics of Deep Neural Networks: Generalization Capability, Beyond the Infinite Width, and Feature Learning
- Title(参考訳): ディープニューラルネットワークの統計物理:無限幅を超える一般化能力と特徴学習
- Authors: Sebastiano Ariosto,
- Abstract要約: この論文は、ディープニューラルネットワーク(DNN)を理解するために物理に基づく洞察を適用している。
ネットワークがいつデータ構造を学ぶ必要があるかを理解することで、意味のある内部表現の育成に光を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deep Neural Networks (DNNs) excel at many tasks, often rivaling or surpassing human performance. Yet their internal processes remain elusive, frequently described as "black boxes." While performance can be refined experimentally, achieving a fundamental grasp of their inner workings is still a challenge. Statistical Mechanics has long tackled computational problems, and this thesis applies physics-based insights to understand DNNs via three complementary approaches. First, by averaging over data, we derive an asymptotic bound on generalization that depends solely on the size of the last layer, rather than on the total number of parameters -- revealing how deep architectures process information differently across layers. Second, adopting a data-dependent viewpoint, we explore a finite-width thermodynamic limit beyond the infinite-width regime. This leads to: (i) a closed-form expression for the generalization error in a finite-width one-hidden-layer network (regression task); (ii) an approximate partition function for deeper architectures; and (iii) a link between deep networks in this thermodynamic limit and Student's t-processes. Finally, from a task-explicit perspective, we present a preliminary analysis of how DNNs interact with a controlled dataset, investigating whether they truly internalize its structure -- collapsing to the teacher -- or merely memorize it. By understanding when a network must learn data structure rather than just memorize, it sheds light on fostering meaningful internal representations. In essence, this thesis leverages the synergy between Statistical Physics and Machine Learning to illuminate the inner behavior of DNNs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くのタスクで優れており、しばしば人間のパフォーマンスに匹敵するか、上回っている。
しかし、彼らの内部プロセスは解明され、しばしば「ブラックボックス」と表現される。
性能は実験的に洗練されるが、内部の動作を根本的に把握することは依然として課題である。
統計力学は長い間計算問題に取り組んできたが、この論文は3つの相補的なアプローチを通してDNNを理解するために物理学に基づく洞察を適用している。
まず、データ平均化によって、パラメータの総数ではなく、最後のレイヤのサイズにのみ依存する一般化に基づく漸近的境界が導き出されます。
第2に、データ依存の観点から、無限幅状態を超えた有限幅熱力学限界を探索する。
こうなる。
(i)有限幅一重層ネットワークにおける一般化誤差に対する閉形式表現(回帰タスク)
(二)より深い建築のための近似分割関数、及び
(iii) この熱力学限界における深層ネットワークと学生のt過程とのリンク。
最後に、タスク-専門家の観点から、DNNが制御されたデータセットとどのように相互作用するかを予備分析し、その構造が本当に内部化されているか、教師に崩壊するか、あるいは単に記憶しているかを調査する。
ネットワークが単に記憶するのではなく、データ構造を学習しなければならない場合を理解することで、意味のある内部表現の育成に光を当てる。
本質的に、この論文は統計物理学と機械学習の相乗効果を利用して、DNNの内部挙動を照らす。
関連論文リスト
- Information-Theoretic Generalization Bounds for Deep Neural Networks [22.87479366196215]
ディープニューラルネットワーク(DNN)は、実用的な応用において、非常に優れた一般化能力を示す。
本研究の目的は,情報理論の一般化境界による教師あり学習における深度の影響とメリットを捉えることである。
論文 参考訳(メタデータ) (2024-04-04T03:20:35Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport [32.39176908225668]
本稿では,DNNの非線形性シグネチャの概念を紹介する。これはディープニューラルネットワークの非線形性を測定するための,理論上初めての音響解である。
提案した非線形署名の実用性を明らかにするための実験結果について述べる。
論文 参考訳(メタデータ) (2023-10-17T17:50:22Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Information Flow in Deep Neural Networks [0.6922389632860545]
ディープニューラルネットワークの動作や構造に関する包括的な理論的理解は存在しない。
深層ネットワークはしばしば、不明確な解釈と信頼性を持つブラックボックスと見なされる。
この研究は、情報理論の原理と技法をディープラーニングモデルに適用し、理論的理解を高め、より良いアルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2022-02-10T23:32:26Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Architecture Disentanglement for Deep Neural Networks [174.16176919145377]
ディープニューラルネットワーク(DNN)の内部動作を説明するために,ニューラルアーキテクチャ・ディコンタングルメント(NAD)を導入する。
NADは、訓練済みのDNNを独立したタスクに従ってサブアーキテクチャに切り離すことを学び、推論プロセスを記述する情報フローを形成する。
その結果、誤分類された画像は、タスクサブアーキテクチャーに正しいサブアーキテクチャーに割り当てられる確率が高いことが示された。
論文 参考訳(メタデータ) (2020-03-30T08:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。