論文の概要: Statistical Physics of Deep Neural Networks: Initialization toward
Optimal Channels
- arxiv url: http://arxiv.org/abs/2212.01744v1
- Date: Sun, 4 Dec 2022 05:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:13:13.915578
- Title: Statistical Physics of Deep Neural Networks: Initialization toward
Optimal Channels
- Title(参考訳): ディープニューラルネットワークの統計物理:最適チャネルへの初期化
- Authors: Kangyu Weng, Aohua Cheng, Ziyang Zhang, Pei Sun, Yang Tian
- Abstract要約: ディープラーニングでは、ニューラルネットワークは入力データとその表現の間のノイズの多いチャネルとして機能する。
ニューラルネットワークが最適なチャネルに内在する可能性について,よく見過ごされる可能性について検討する。
- 参考スコア(独自算出の注目度): 6.144858413112823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning, neural networks serve as noisy channels between input data
and its representation. This perspective naturally relates deep learning with
the pursuit of constructing channels with optimal performance in information
transmission and representation. While considerable efforts are concentrated on
realizing optimal channel properties during network optimization, we study a
frequently overlooked possibility that neural networks can be initialized
toward optimal channels. Our theory, consistent with experimental validation,
identifies primary mechanics underlying this unknown possibility and suggests
intrinsic connections between statistical physics and deep learning. Unlike the
conventional theories that characterize neural networks applying the classic
mean-filed approximation, we offer analytic proof that this extensively applied
simplification scheme is not valid in studying neural networks as information
channels. To fill this gap, we develop a corrected mean-field framework
applicable for characterizing the limiting behaviors of information propagation
in neural networks without strong assumptions on inputs. Based on it, we
propose an analytic theory to prove that mutual information maximization is
realized between inputs and propagated signals when neural networks are
initialized at dynamic isometry, a case where information transmits via
norm-preserving mappings. These theoretical predictions are validated by
experiments on real neural networks, suggesting the robustness of our theory
against finite-size effects. Finally, we analyze our findings with information
bottleneck theory to confirm the precise relations among dynamic isometry,
mutual information maximization, and optimal channel properties in deep
learning.
- Abstract(参考訳): ディープラーニングでは、ニューラルネットワークは入力データとその表現の間のノイズチャネルとして機能する。
この視点は、情報伝達と表現において最適な性能を持つチャネルの構築を追求する深層学習と自然に関係している。
ネットワーク最適化における最適なチャネル特性の実現にかなりの努力が注がれているが、ニューラルネットワークが最適なチャネルに向けて初期化できる可能性について、しばしば見過ごされている。
我々の理論は、実験的な検証と一致し、この未知の可能性の根底にある一次力学を特定し、統計物理学と深層学習の本質的な関係を示唆している。
従来の平均ファイル近似を適用したニューラルネットワークを特徴付ける従来の理論とは異なり、この広範囲に応用された単純化スキームが、ニューラルネットワークを情報チャネルとして研究するのに有効ではないことを解析的に証明する。
このギャップを埋めるために、ニューラルネットワークにおける情報伝達の制限挙動を入力に強く仮定せずに特徴付けるための補正平均場フレームワークを開発する。
そこで本研究では,ニューラルネットワークが動的等長法で初期化されると,入力信号と伝搬信号の間で相互情報最大化が実現されることを示す解析理論を提案する。
これらの理論予測は実際のニューラルネットワークの実験によって検証され、有限サイズ効果に対する我々の理論の堅牢性が示唆される。
最後に,情報ボトルネック理論を用いて解析を行い,動的アイソメトリ,相互情報の最大化,深層学習におけるチャネル特性の正確な関係を確認する。
関連論文リスト
- Interpreting Neural Networks through Mahalanobis Distance [0.0]
本稿では,ニューラルネットワークの線形層とマハラノビス距離を結合する理論的枠組みを提案する。
この研究は理論的であり、経験的データを含んでいないが、提案された距離に基づく解釈は、モデルロバスト性を高め、一般化を改善し、ニューラルネットワークの決定をより直観的な説明を提供する可能性がある。
論文 参考訳(メタデータ) (2024-10-25T07:21:44Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Network Diffusions via Neural Mean-Field Dynamics [52.091487866968286]
本稿では,ネットワーク上の拡散の推論と推定のための新しい学習フレームワークを提案する。
本研究の枠組みは, ノード感染確率の正確な進化を得るために, モリ・ズワンジッヒ形式から導かれる。
我々のアプローチは、基礎となる拡散ネットワークモデルのバリエーションに対して多用途で堅牢である。
論文 参考訳(メタデータ) (2020-06-16T18:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。