論文の概要: Information Plane Analysis of Binary Neural Networks
- arxiv url: http://arxiv.org/abs/2605.03636v1
- Date: Tue, 05 May 2026 11:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.910409
- Title: Information Plane Analysis of Binary Neural Networks
- Title(参考訳): バイナリニューラルネットワークの情報平面解析
- Authors: Maximilian Nothnagel, Bernhard C. Geiger,
- Abstract要約: 我々は、アクティベーションが離散的でMIが有限なバイナリニューラルネットワーク(BNN)のIP分析を行う。
我々は、後期圧縮相の存在と圧縮表現と一般化性能の関係を調査するためにBNNを訓練する。
- 参考スコア(独自算出の注目度): 6.259398755176288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information plane (IP) analysis has been suggested to study the training dynamics of deep neural networks through mutual information (MI) between inputs, representations, and targets. However, its statistical validity is often compromised by the difficulty of estimating MI from samples of high-dimensional, deterministic representations. In this work, we perform IP analyses on binary neural networks (BNNs) where activations are discrete and MI is finite. We characterise the finite-sample behaviour of the plug-in entropy estimator and identify regimes for sample size $N$ and representation dimensionality $D$ under which MI estimates are reliable. Outside these regimes, we show that empirical MI estimates saturate to $\log_2 N$, rendering IP trajectories uninformative. Restricting attention to the reliable regime, we train 375 BNNs to investigate the existence of late-stage compression phases and the relationship between compressed representations and generalisation performance. Our results show that while late-stage compression is frequently observed, compressed latent representations do not consistently correlate with improved generalization performance. Instead, the relationship between compression and generalisation is highly dependent on task, architecture, and regularisation.
- Abstract(参考訳): インフォメーションプレーン(IP)解析は、入力、表現、ターゲット間の相互情報(MI)を通してディープニューラルネットワークのトレーニングダイナミクスを研究するために提案されている。
しかし、その統計的妥当性は、高次元決定論的表現のサンプルからMIを推定することの難しさによってしばしば損なわれる。
本研究では,アクティベーションが離散的でMIが有限なバイナリニューラルネットワーク(BNN)のIP解析を行う。
プラグインエントロピー推定器の有限サンプル挙動を特徴付けるとともに,標本サイズが$N$,表現次元が$D$である場合,MI推定は信頼性が高い。
これらの状況以外では、経験的MI推定値が$\log_2 N$に飽和し、IPトラジェクトリが非形式的であることを示す。
信頼性に留意し、375個のBNNを訓練し、後期圧縮相の存在と圧縮表現と一般化性能の関係について検討する。
この結果から,後期圧縮が頻繁に観測されるが,圧縮された潜在表現は一般化性能の向上と一貫して相関しないことがわかった。
代わりに、圧縮と一般化の関係はタスク、アーキテクチャ、正規化に大きく依存している。
関連論文リスト
- On the Generalization Behavior of Deep Residual Networks From a Dynamical System Perspective [1.0388986221727612]
ディープニューラルネットワーク(DNN)は非常に高度な機械学習を持ち、モデル深度は彼らの成功に中心的な役割を果たす。
本研究では,Rademacher複雑性,動的システムのフローマップ,ResNetsの深層限界における収束挙動を組み合わせることで,離散的および連続的残差ネットワーク(ResNets)の一般化誤差境界を確立する。
Findingsは、離散時間と連続時間の両方のResNet間の一般化の統一的な理解を提供し、サンプルの複雑さの順序と離散時間と連続時間設定の間の仮定のギャップを埋めるのに役立ちます。
論文 参考訳(メタデータ) (2026-02-24T13:59:06Z) - Data-Driven Deep MIMO Detection:Network Architectures and Generalization Analysis [50.20709408241935]
本稿では,ネットワーク・オブ・MLPにおける完全データ駆動型DeepSIC検出の検証を提案する。
このようなアーキテクチャでは、グラフニューラルネットワーク(GNN)を使用したグラフベースのメッセージパッシングプロセスとして、DeepSICをアップグレードすることができる。
GNNSICは、訓練可能なパラメータが大幅に少ないDeepSICに匹敵する優れた表現性を達成する。
論文 参考訳(メタデータ) (2026-02-13T04:38:51Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Probabilistically Rewired Message-Passing Neural Networks [41.554499944141654]
メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフ構造化入力を処理する強力なツールとして登場した。
MPNNは、潜在的なノイズや欠落した情報を無視して、固定された入力グラフ構造で動作する。
確率的に再構成されたMPNN(PR-MPNN)を考案し、より有益なものを省略しながら、関連するエッジを追加することを学習する。
論文 参考訳(メタデータ) (2023-10-03T15:43:59Z) - Information Bottleneck Analysis of Deep Neural Networks via Lossy Compression [37.69303106863453]
Information Bottleneck(IB)原則は、ディープニューラルネットワーク(DNN)のトレーニングプロセスを分析するための情報理論フレームワークを提供する。
本稿では,一般NNのICB解析を行うためのフレームワークを提案する。
また,MI力学の新たな特徴を明らかにするため,実規模に近いISB解析を行う。
論文 参考訳(メタデータ) (2023-05-13T21:44:32Z) - Data efficiency and extrapolation trends in neural network interatomic
potentials [0.0]
ニューラルネットワーク間ポテンシャル(NNIP)の一般化にアーキテクチャと最適化がどう影響するかを示す。
NNIPにおけるテストエラーはスケーリング関係に従っており、ノイズに対して堅牢であるが、高精度なシステムではMD安定性を予測できないことを示す。
我々の研究は、多くの共通NNIPの補間性能に対する深い学習の正当性を提供する。
論文 参考訳(メタデータ) (2023-02-12T00:34:05Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。