論文の概要: Adaptive Estimators Show Information Compression in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/1902.09037v2
- Date: Thu, 30 Mar 2023 22:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 18:38:14.484308
- Title: Adaptive Estimators Show Information Compression in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける情報圧縮を示す適応推定器
- Authors: Ivan Chelombiev, Conor Houghton, Cian O'Donnell
- Abstract要約: 情報ボトルネック理論は、ニューラルネットワークがそれらの表現を圧縮し、タスクに関係のない情報を無視することで、優れた一般化を実現することを提案している。
本稿では,ニューラルネットワークの隠れ活動に適応する,より堅牢な相互情報推定手法を開発する。
本研究では, アクティベーション関数の飽和は圧縮に必要ではなく, 異なるアクティベーション関数間で圧縮量が異なることを示す。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve how neural networks function it is crucial to understand their
learning process. The information bottleneck theory of deep learning proposes
that neural networks achieve good generalization by compressing their
representations to disregard information that is not relevant to the task.
However, empirical evidence for this theory is conflicting, as compression was
only observed when networks used saturating activation functions. In contrast,
networks with non-saturating activation functions achieved comparable levels of
task performance but did not show compression. In this paper we developed more
robust mutual information estimation techniques, that adapt to hidden activity
of neural networks and produce more sensitive measurements of activations from
all functions, especially unbounded functions. Using these adaptive estimation
techniques, we explored compression in networks with a range of different
activation functions. With two improved methods of estimation, firstly, we show
that saturation of the activation function is not required for compression, and
the amount of compression varies between different activation functions. We
also find that there is a large amount of variation in compression between
different network initializations. Secondary, we see that L2 regularization
leads to significantly increased compression, while preventing overfitting.
Finally, we show that only compression of the last layer is positively
correlated with generalization.
- Abstract(参考訳): ニューラルネットワークの機能を改善するには、学習プロセスを理解することが不可欠である。
深層学習における情報ボトルネック理論は、そのタスクに関係のない情報を無視して表現を圧縮することで、ニューラルネットワークが良好な一般化を達成することを提案している。
しかし、この理論の実証的な証拠は相反しており、ネットワークが飽和活性化関数を使用する場合にのみ圧縮が観察された。
対照的に、非飽和活性化機能を持つネットワークはタスク性能に匹敵するレベルに達したが、圧縮は示さなかった。
本稿では,ニューラルネットワークの隠れた活動に適応し,すべての関数,特に非有界関数からのアクティベーションのより感度の高い測定を行う,より堅牢な相互情報推定手法を開発した。
これらの適応的推定手法を用いて,様々なアクティベーション関数を持つネットワークの圧縮について検討した。
2つの改良された推定方法により,まず,アクティベーション関数の飽和度を圧縮に必要とせず,異なるアクティベーション関数間で圧縮量が変化することを示した。
また、異なるネットワーク初期化間の圧縮に多くのばらつきがあることが判明した。
第二に、L2正規化は圧縮を著しく増加させ、過度な適合を防ぐ。
最後に,最後の層のみの圧縮が一般化と正の相関を持つことを示す。
関連論文リスト
- Understanding the Effect of the Long Tail on Neural Network Compression [9.819486253052528]
We study the "long tail" phenomenon in computer vision datasets observed by Feldman, et al。
圧縮によってネットワークの容量が制限される(したがって記憶する能力も制限される)ため、我々は問題を研究する: 記憶されたトレーニングデータと相関するフルモデルと圧縮モデルの間にミスマッチがあるか?
論文 参考訳(メタデータ) (2023-06-09T20:18:05Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Supervised Compression for Resource-constrained Edge Computing Systems [26.676557573171618]
フルスケールのディープニューラルネットワークは、エネルギーとストレージの面でリソース集約的すぎることが多い。
本稿では、知識蒸留とニューラルイメージ圧縮のアイデアを採用し、中間特徴表現をより効率的に圧縮する。
教師付きレート歪み性能を向上するとともに、エンドツーエンドのレイテンシも小さくする。
論文 参考訳(メタデータ) (2021-08-21T11:10:29Z) - DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep
Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。
DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。
大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文 参考訳(メタデータ) (2021-02-05T11:31:24Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Attribution Preservation in Network Compression for Reliable Network
Interpretation [81.84564694303397]
安全に敏感なアプリケーションに埋め込まれたニューラルネットワークは、エッジ計算のサイズを減らすために、後向きの分析とネットワーク圧縮に入力属性に依存する。
ネットワーク圧縮が生成した属性を変形させるため,これらの非関係な手法が相互に競合することを示す。
この現象は、従来のネットワーク圧縮手法が、属性の品質を無視しながら、ネットワークの予測のみを保存するという事実から生じる。
論文 参考訳(メタデータ) (2020-10-28T16:02:31Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z) - ReluDiff: Differential Verification of Deep Neural Networks [8.601847909798165]
我々は2つの密接に関連するネットワークの差分検証法を開発した。
我々は2つのネットワークの構造的および行動的類似性を利用して、2つのネットワークの出力ニューロン間の差異をより正確に拘束する。
実験の結果,最先端の検証ツールと比較して,精度向上が可能であることがわかった。
論文 参考訳(メタデータ) (2020-01-10T20:47:22Z) - Mixed-Precision Quantized Neural Network with Progressively Decreasing
Bitwidth For Image Classification and Object Detection [21.48875255723581]
ビット幅が徐々に増大する混合精度量子化ニューラルネットワークを提案し,精度と圧縮のトレードオフを改善する。
典型的なネットワークアーキテクチャとベンチマークデータセットの実験は、提案手法がより良い結果または同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2019-12-29T14:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。