論文の概要: Neural Scaling Laws of Deep ReLU and Deep Operator Network: A Theoretical Study
- arxiv url: http://arxiv.org/abs/2410.00357v1
- Date: Tue, 1 Oct 2024 03:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:06:43.720948
- Title: Neural Scaling Laws of Deep ReLU and Deep Operator Network: A Theoretical Study
- Title(参考訳): Deep ReLUとDeep Operator Networkのニューラルスケーリング法則に関する理論的研究
- Authors: Hao Liu, Zecheng Zhang, Wenjing Liao, Hayden Schaeffer,
- Abstract要約: 深部演算子のネットワークにおけるニューラルネットワークのスケーリング法則をChenおよびChenスタイルアーキテクチャを用いて検討する。
我々は、その近似と一般化誤差を分析して、ニューラルネットワークのスケーリング法則を定量化する。
本結果は,演算子学習における神経スケーリング法則を部分的に説明し,その応用の理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 8.183509993010983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws play a pivotal role in the performance of deep neural networks and have been observed in a wide range of tasks. However, a complete theoretical framework for understanding these scaling laws remains underdeveloped. In this paper, we explore the neural scaling laws for deep operator networks, which involve learning mappings between function spaces, with a focus on the Chen and Chen style architecture. These approaches, which include the popular Deep Operator Network (DeepONet), approximate the output functions using a linear combination of learnable basis functions and coefficients that depend on the input functions. We establish a theoretical framework to quantify the neural scaling laws by analyzing its approximation and generalization errors. We articulate the relationship between the approximation and generalization errors of deep operator networks and key factors such as network model size and training data size. Moreover, we address cases where input functions exhibit low-dimensional structures, allowing us to derive tighter error bounds. These results also hold for deep ReLU networks and other similar structures. Our results offer a partial explanation of the neural scaling laws in operator learning and provide a theoretical foundation for their applications.
- Abstract(参考訳): ニューラルスケーリング法則はディープニューラルネットワークの性能において重要な役割を担い、幅広いタスクで観察されてきた。
しかし、これらのスケーリング法則を理解するための完全な理論的枠組みはまだ未発達である。
本稿では,関数空間間のマッピングを学習するディープ・オペレーター・ネットワークのニューラル・スケーリング法則について検討し,ChenおよびChenスタイルのアーキテクチャに着目した。
一般的なDeep Operator Network (DeepONet)を含むこれらのアプローチは、学習可能な基底関数と入力関数に依存する係数の線形結合を用いて出力関数を近似する。
我々は、その近似と一般化誤差を分析して、ニューラルネットワークのスケーリング法則を定量化する理論的枠組みを確立する。
深部演算子のネットワークの近似と一般化誤差と,ネットワークモデルのサイズやトレーニングデータサイズといった重要な要因との関係を明確にする。
さらに,入力関数が低次元構造を示す場合にも対処し,より厳密な誤差境界を導出する。
これらの結果は、深いReLUネットワークや他の類似構造にも当てはまる。
本結果は,演算子学習における神経スケーリングの法則を部分的に説明し,その応用の理論的基盤を提供する。
関連論文リスト
- Interpreting Neural Networks through Mahalanobis Distance [0.0]
本稿では,ニューラルネットワークの線形層とマハラノビス距離を結合する理論的枠組みを提案する。
この研究は理論的であり、経験的データを含んでいないが、提案された距離に基づく解釈は、モデルロバスト性を高め、一般化を改善し、ニューラルネットワークの決定をより直観的な説明を提供する可能性がある。
論文 参考訳(メタデータ) (2024-10-25T07:21:44Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Information Flow in Deep Neural Networks [0.6922389632860545]
ディープニューラルネットワークの動作や構造に関する包括的な理論的理解は存在しない。
深層ネットワークはしばしば、不明確な解釈と信頼性を持つブラックボックスと見なされる。
この研究は、情報理論の原理と技法をディープラーニングモデルに適用し、理論的理解を高め、より良いアルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2022-02-10T23:32:26Z) - Deep Nonparametric Estimation of Operators between Infinite Dimensional
Spaces [41.55700086945413]
本稿では、ディープニューラルネットワークを用いたリプシッツ作用素の非パラメトリック推定について検討する。
対象作用素が低次元構造を示すという仮定の下では、トレーニングサンプルサイズが大きくなるにつれて誤差は減衰する。
この結果から,演算子推定における低次元データ構造の利用による高速化が期待できる。
論文 参考訳(メタデータ) (2022-01-01T16:33:44Z) - Analytic Insights into Structure and Rank of Neural Network Hessian Maps [32.90143789616052]
ニューラルネットワークのヘシアンは、損失の2階微分を通じてパラメータ相互作用をキャプチャする。
我々は、ヘッセン写像の範囲を分析する理論的ツールを開発し、その階数不足の正確な理解を提供する。
これにより、ディープ線形ネットワークのヘッセン階数に対する正確な公式と厳密な上界が得られる。
論文 参考訳(メタデータ) (2021-06-30T17:29:58Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。