Fugu-MT 論文翻訳(概要): A General Framework of the Consistency for Large Neural Networks

論文の概要: A General Framework of the Consistency for Large Neural Networks

arxiv url: http://arxiv.org/abs/2409.14123v2
Date: Thu, 3 Oct 2024 03:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 03:22:12.069200
Title: A General Framework of the Consistency for Large Neural Networks
Title（参考訳）: 大規模ニューラルネットワークの一貫性の一般的な枠組み
Authors: Haoran Zhan, Yingcun Xia,
Abstract要約: ニューラルネットワークの平均積分正方形誤差(MISE)を研究するための一般化正規化フレームワークを提案する。筆者らのフレームワークから,MISE曲線は2つの可能な形状,すなわち2重降下形と単調下降形であることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural networks have shown remarkable success, especially in overparameterized or "large" models. Despite increasing empirical evidence and intuitive understanding, a formal mathematical justification for the behavior of such models, particularly regarding overfitting, remains incomplete. In this paper, we propose a general regularization framework to study the Mean Integrated Squared Error (MISE) of neural networks. This framework includes many commonly used neural networks and penalties, such as ReLu and Sigmoid activations and $L^1$, $L^2$ penalties. Based on our frameworks, we find the MISE curve has two possible shapes, namely the shape of double descents and monotone decreasing. The latter phenomenon is new in literature and the causes of these two phenomena are also studied in theory. These studies challenge conventional statistical modeling frameworks and broadens recent findings on the double descent phenomenon in neural networks.
Abstract（参考訳）: ニューラルネットワークは特に過度にパラメータ化されたモデルや"大規模"モデルにおいて顕著な成功を収めている。経験的証拠の増大と直観的な理解にもかかわらず、そのようなモデルの振る舞い、特に過度な適合に関する形式的な数学的正当化はいまだ不完全である。本稿では,ニューラルネットワークの平均積分正方形誤差(MISE)を研究するための一般化正規化フレームワークを提案する。このフレームワークには、ReLuやSigmoidのアクティベーションや$L^1$、$L^2$ペナルティなど、よく使われるニューラルネットワークやペナルティが含まれている。筆者らのフレームワークから,MISE曲線は2つの可能な形状,すなわち2重降下形と単調下降形であることがわかった。後者の現象は文学において新しい現象であり、これらの2つの現象の原因も理論的に研究されている。これらの研究は、従来の統計モデリングフレームワークに挑戦し、ニューラルネットワークの二重降下現象に関する最近の知見を広げる。

関連論文リスト

Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize [5.642322814965062]
分散シフトの下で一般化される学習表現は、堅牢な機械学習モデルを構築する上で重要である。ニューラルネットワークを教師ネットワークから得られる表現に明示的に適合させることさえ、学生ネットワークの一般化には不十分であることを示す。
論文参考訳（メタデータ） (2024-06-05T15:04:27Z)
A singular Riemannian Geometry Approach to Deep Neural Networks III. Piecewise Differentiable Layers and Random Walks on $n$-dimensional Classes [49.32130498861987]
本稿ではReLUのような非微分可能活性化関数の事例について検討する。最近の2つの研究は、ニューラルネットワークを研究するための幾何学的枠組みを導入した。本稿では,画像の分類と熱力学問題に関する数値実験を行った。
論文参考訳（メタデータ） (2024-04-09T08:11:46Z)
A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models [13.283281356356161]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。ニューラルネットワークの過剰なリスクに関する調査結果をレビューする。ニューラルネットワークが、目に見えないデータでうまく一般化できるソリューションを見つける方法に答えようとする論文」をレビューする。
論文参考訳（メタデータ） (2024-01-14T02:30:19Z)
A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。これは二重降下と統計的直観の間の緊張を解消する。
論文参考訳（メタデータ） (2023-10-29T12:05:39Z)
How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文参考訳（メタデータ） (2023-06-04T08:53:27Z)
Generalization and Estimation Error Bounds for Model-based Neural Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文参考訳（メタデータ） (2023-04-19T16:39:44Z)
Consistency of Neural Networks with Regularization [0.0]
本稿では,ニューラルネットワークの規則化による一般的な枠組みを提案し,その一貫性を実証する。双曲関数(Tanh)と整形線形単位(ReLU)の2種類の活性化関数が検討されている。
論文参考訳（メタデータ） (2022-06-22T23:33:39Z)
Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文参考訳（メタデータ） (2021-12-06T18:17:08Z)
Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文参考訳（メタデータ） (2021-10-12T01:11:07Z)
Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse in Imbalanced Training [39.137793683411424]
解析的に抽出できない最適化プログラムである textitLayer-Peeled Model を導入する。このモデルでは,よく訓練されたネットワークの特徴の多くを継承し,ディープラーニング学習の一般的な経験的パターンを説明・予測するための効果的なツールを提供する。特に,本モデルでは,テキストマイノリティ崩壊(textitMinority Collapse)という,マイノリティクラスにおけるディープラーニングモデルの性能を根本的に制限する未知の現象が明らかにされている。
論文参考訳（メタデータ） (2021-01-29T17:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。