Fugu-MT 論文翻訳(概要): Emergence of Globally Attracting Fixed Points in Deep Neural Networks With Nonlinear Activations

論文の概要: Emergence of Globally Attracting Fixed Points in Deep Neural Networks With Nonlinear Activations

arxiv url: http://arxiv.org/abs/2410.20107v1
Date: Sat, 26 Oct 2024 07:10:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.787406
Title: Emergence of Globally Attracting Fixed Points in Deep Neural Networks With Nonlinear Activations
Title（参考訳）: 非線形活性化を伴うディープニューラルネットワークにおける大域的不動点の発生
Authors: Amir Joudaki, Thomas Hofmann,
Abstract要約: 本稿では、2つの異なる入力に対して隠された表現の類似性を計測するカーネルシーケンスの進化に関する理論的枠組みを提案する。非線形アクティベーションに対しては、カーネルシーケンスは、アクティベーションとネットワークアーキテクチャに依存する同様の表現に対応可能な、一意の固定点にグローバルに収束する。この研究は、ディープニューラルネットワークの暗黙のバイアスと、アーキテクチャ上の選択が層間の表現の進化にどのように影響するかについて、新たな洞察を提供する。
参考スコア（独自算出の注目度）: 24.052411316664017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding how neural networks transform input data across layers is fundamental to unraveling their learning and generalization capabilities. Although prior work has used insights from kernel methods to study neural networks, a global analysis of how the similarity between hidden representations evolves across layers remains underexplored. In this paper, we introduce a theoretical framework for the evolution of the kernel sequence, which measures the similarity between the hidden representation for two different inputs. Operating under the mean-field regime, we show that the kernel sequence evolves deterministically via a kernel map, which only depends on the activation function. By expanding activation using Hermite polynomials and using their algebraic properties, we derive an explicit form for kernel map and fully characterize its fixed points. Our analysis reveals that for nonlinear activations, the kernel sequence converges globally to a unique fixed point, which can correspond to orthogonal or similar representations depending on the activation and network architecture. We further extend our results to networks with residual connections and normalization layers, demonstrating similar convergence behaviors. This work provides new insights into the implicit biases of deep neural networks and how architectural choices influence the evolution of representations across layers.
Abstract（参考訳）: ニューラルネットワークが層を横断して入力データを変換する方法を理解することは、学習と一般化能力の解明に不可欠である。これまでの研究では、ニューラルネットワークの研究にカーネルメソッドからの洞察が使われてきたが、隠された表現の類似性が層間でどのように進化するかのグローバルな分析は、いまだに過小評価されている。本稿では,2つの異なる入力に対する隠蔽表現の類似性を測定するカーネルシーケンスの進化に関する理論的枠組みを提案する。平均場条件下では,カーネル列はカーネルマップを介して決定的に進化し,活性化関数のみに依存することを示す。エルミート多項式を用いて活性化を拡大し、それらの代数的性質を用いることで、カーネル写像の明示的な形式を導き、その固定点を完全に特徴づける。本分析により, 非線形アクティベーションでは, カーネルシーケンスが一意の固定点に収束し, アクティベーションやネットワークアーキテクチャに依存する直交あるいは類似の表現に対応できることがわかった。さらに、残りの接続層と正規化層を持つネットワークに結果を拡張し、同様の収束挙動を示す。この研究は、ディープニューラルネットワークの暗黙のバイアスと、アーキテクチャ上の選択が層間の表現の進化にどのように影響するかについて、新たな洞察を提供する。

関連論文リスト

A Graph Sufficiency Perspective for Neural Networks [4.872570541276082]
本稿では,グラフ変数と統計的十分性を用いてニューラルネットワークを解析する。無限幅の限界を保ち、訓練を通して保存されていることを証明した。この研究は、統計十分性、グラフ理論表現、ディープラーニングを橋渡しし、ニューラルネットワークの新しい統計的理解を提供する。
論文参考訳（メタデータ） (2025-07-14T12:31:47Z)
Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
From Kernels to Features: A Multi-Scale Adaptive Theory of Feature Learning [3.7857410821449755]
この研究は、様々なアプローチをブリッジするマルチスケール適応的特徴学習の理論的枠組みを示す。ネットワークの確率分布の体系的な拡張により、平均場スケーリングはサドル点近似のみを必要とすることが明らかになった。注目すべきは、線形ネットワークの平均ネットワーク出力を予測する際に、カーネル適応を有効なカーネル再スケーリングに還元できることである。
論文参考訳（メタデータ） (2025-02-05T14:26:50Z)
Mechanism of feature learning in convolutional neural networks [14.612673151889615]
我々は、畳み込みニューラルネットワークが画像データからどのように学習するかのメカニズムを特定する。我々は,フィルタの共分散とパッチベースAGOPの相関関係の同定を含む,アンザッツの実証的証拠を提示する。次に、パッチベースのAGOPを用いて、畳み込みカーネルマシンの深い特徴学習を可能にすることにより、結果の汎用性を実証する。
論文参考訳（メタデータ） (2023-09-01T16:30:02Z)
Structure Embedded Nucleus Classification for Histopathology Images [51.02953253067348]
ほとんどのニューラルネットワークに基づく手法は、局所的な畳み込みの受容領域に影響を受けている。本稿では,核輪郭を順にサンプリングした点列に変換する新しい多角構造特徴学習機構を提案する。次に、核をノードとするグラフ構造に組織像を変換し、その表現に核の空間分布を埋め込むグラフニューラルネットワークを構築する。
論文参考訳（メタデータ） (2023-02-22T14:52:06Z)
Graph Convolutional Networks from the Perspective of Sheaves and the Neural Tangent Kernel [0.0]
グラフ畳み込みネットワークはディープニューラルネットワークアルゴリズムの一般的なクラスである。その成功にもかかわらず、グラフ畳み込みネットワークには、過度に滑らかな関数やホモ親近性関数の学習へのバイアスなど、多くの特異な特徴がある。せん断畳み込みネットワークのニューラル・タンジェント・カーネルの研究により,このギャップを埋めることを提案する。
論文参考訳（メタデータ） (2022-08-19T12:46:49Z)
Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。これは機械学習の幅広い領域にまたがる重要な構造条件の例である。しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文参考訳（メタデータ） (2022-06-13T12:03:32Z)
Entangled Residual Mappings [59.02488598557491]
残余接続の構造を一般化するために、絡み合った残余写像を導入する。絡み合い残余写像は、アイデンティティスキップ接続を特別な絡み合い写像に置き換える。絡み合った写像は、様々な深層モデルにまたがる特徴の反復的洗練を保ちながら、畳み込みネットワークにおける表現学習プロセスに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2022-06-02T19:36:03Z)
Self-Consistent Dynamical Field Theory of Kernel Evolution in Wide Neural Networks [18.27510863075184]
勾配流を学習した無限幅ニューラルネットワークにおける特徴学習を,自己整合力学場理論を用いて解析する。本研究では,各層に隠れた単位活性化と勾配を示す内積カーネルである決定論的動的順序パラメータの集合を,時間点のペアで構築する。
論文参考訳（メタデータ） (2022-05-19T16:10:10Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Implicit Regularization in Hierarchical Tensor Factorization and Deep Convolutional Neural Networks [18.377136391055327]
本稿では,階層的テンソル分解における暗黙の正規化を理論的に解析する。これは、関連する畳み込みネットワークの局所性に対する暗黙の正規化に変換される。我々の研究は、暗黙の正規化の理論解析を通じてニューラルネットワークを強化する可能性を強調している。
論文参考訳（メタデータ） (2022-01-27T18:48:30Z)
Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文参考訳（メタデータ） (2021-10-26T17:00:16Z)
Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文参考訳（メタデータ） (2020-08-19T04:53:31Z)
Investigating the Compositional Structure Of Deep Neural Networks [1.8899300124593645]
本稿では,一方向線形活性化関数の構成構造に基づく新しい理論的枠組みを提案する。予測ラベルと予測に使用する特定の(線形)変換の両方に関して、入力データのインスタンスを特徴付けることができる。 MNISTデータセットの予備テストでは、ニューラルネットワークの内部表現における類似性に関して、入力インスタンスをグループ化することが可能である。
論文参考訳（メタデータ） (2020-02-17T14:16:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。