論文の概要: On the Maximum Mutual Information Capacity of Neural Architectures
- arxiv url: http://arxiv.org/abs/2006.06037v1
- Date: Wed, 10 Jun 2020 19:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:48:04.492827
- Title: On the Maximum Mutual Information Capacity of Neural Architectures
- Title(参考訳): ニューラルネットワークの最大相互情報容量について
- Authors: Brandon Foggo and Nanpeng Yu
- Abstract要約: ニューラルネットワークアーキテクチャの幅広いファミリに対する最大相互情報のクローズドフォーム表現を導出する。
この量は、機械学習理論と実践のいくつかの分野に必須である。
- 参考スコア(独自算出の注目度): 2.784501414201992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We derive the closed-form expression of the maximum mutual information - the
maximum value of $I(X;Z)$ obtainable via training - for a broad family of
neural network architectures. The quantity is essential to several branches of
machine learning theory and practice. Quantitatively, we show that the maximum
mutual information for these families all stem from generalizations of a single
catch-all formula. Qualitatively, we show that the maximum mutual information
of an architecture is most strongly influenced by the width of the smallest
layer of the network - the "information bottleneck" in a different sense of the
phrase, and by any statistical invariances captured by the architecture.
- Abstract(参考訳): ニューラルネットワークアーキテクチャの幅広いファミリーに対して,最大相互情報のクローズドフォーム表現 - トレーニングによって取得可能な最大値$i(x;z)$ - を導出する。
この量は、機械学習理論と実践のいくつかの分野に必須である。
定量的には、これらの族に対する最大相互情報はすべて単一のキャッチオール公式の一般化によるものである。
定性的には、アーキテクチャの最大相互情報は、ネットワークの最小層の幅(フレーズの異なる意味での「情報のボトルネック」)と、アーキテクチャによってキャプチャされた任意の統計的不変性(英語版)に最も強く影響される。
関連論文リスト
- Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning [16.8379583872582]
我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。
我々は、ITHPがマルチモーダル学習シナリオにおいて重要な情報を一貫して蒸留し、最先端のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T01:34:44Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Defining Neural Network Architecture through Polytope Structures of Dataset [53.512432492636236]
本稿では, ニューラルネットワーク幅の上下境界を定義し, 問題となるデータセットのポリトープ構造から情報を得る。
本研究では,データセットのポリトープ構造を学習したニューラルネットワークから推定できる逆条件を探索するアルゴリズムを開発した。
MNIST、Fashion-MNIST、CIFAR10といった一般的なデータセットは、顔の少ない2つ以上のポリトップを用いて効率的にカプセル化できることが確立されている。
論文 参考訳(メタデータ) (2024-02-04T08:57:42Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - Weisfeiler and Leman Go Relational [4.29881872550313]
本稿では,よく知られたGCNおよびコンポジションGCNアーキテクチャの表現力の限界について検討する。
上記の2つのアーキテクチャの制限を確実に克服する$k$-RNアーキテクチャを導入します。
論文 参考訳(メタデータ) (2022-11-30T15:56:46Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。