論文の概要: Data-driven effective model shows a liquid-like deep learning
- arxiv url: http://arxiv.org/abs/2007.08093v2
- Date: Wed, 28 Jul 2021 07:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:39:43.923471
- Title: Data-driven effective model shows a liquid-like deep learning
- Title(参考訳): データ駆動型実効モデルによる深層学習
- Authors: Wenxuan Zou and Haiping Huang
- Abstract要約: バイナリシナプスの深いネットワークの状況は、まだ分かっていない。
本稿では,高次元重み空間の最小構造モデルを直接構築することにより,統計力学の枠組みを提案する。
我々のデータ駆動モデルは、高次元の重み空間においてディープラーニングが不合理に有効である理由に関する統計力学的な知見を提供する。
- 参考スコア(独自算出の注目度): 2.0711789781518752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The geometric structure of an optimization landscape is argued to be
fundamentally important to support the success of deep neural network learning.
A direct computation of the landscape beyond two layers is hard. Therefore, to
capture the global view of the landscape, an interpretable model of the
network-parameter (or weight) space must be established. However, the model is
lacking so far. Furthermore, it remains unknown what the landscape looks like
for deep networks of binary synapses, which plays a key role in robust and
energy efficient neuromorphic computation. Here, we propose a statistical
mechanics framework by directly building a least structured model of the
high-dimensional weight space, considering realistic structured data,
stochastic gradient descent training, and the computational depth of neural
networks. We also consider whether the number of network parameters outnumbers
the number of supplied training data, namely, over- or under-parametrization.
Our least structured model reveals that the weight spaces of the
under-parametrization and over-parameterization cases belong to the same class,
in the sense that these weight spaces are well-connected without any
hierarchical clustering structure. In contrast, the shallow-network has a
broken weight space, characterized by a discontinuous phase transition, thereby
clarifying the benefit of depth in deep learning from the angle of high
dimensional geometry. Our effective model also reveals that inside a deep
network, there exists a liquid-like central part of the architecture in the
sense that the weights in this part behave as randomly as possible, providing
algorithmic implications. Our data-driven model thus provides a statistical
mechanics insight about why deep learning is unreasonably effective in terms of
the high-dimensional weight space, and how deep networks are different from
shallow ones.
- Abstract(参考訳): 最適化ランドスケープの幾何学的構造は、ディープニューラルネットワーク学習の成功を支えるために根本的に重要であると論じられている。
二つの層を超えた風景の直接計算は難しい。
したがって、景観の全体像を捉えるためには、ネットワークパラメータ(または重み)空間の解釈可能なモデルを確立する必要がある。
しかし、今のところモデルは不足している。
さらに、ロバストでエネルギー効率の良いニューロモルフィック計算において重要な役割を果たすバイナリシナプスのディープネットワークがどのようなものかは、まだ不明である。
本稿では,高次元重み空間の最小構造モデルを直接構築し,現実的構造化データ,確率的勾配降下訓練,ニューラルネットワークの計算深度を考慮して統計力学の枠組みを提案する。
また,ネットワークパラメータ数が供給されたトレーニングデータ数,すなわち過小パラメータ数,あるいは過小パラメータ数よりも多いかどうかも検討する。
我々の最小構造モデルは、これらの重み空間が階層的クラスタリング構造なしで十分に連結されているという意味で、過度パラメータ化と過度パラメータ化の場合の重み空間が同じクラスに属することを明らかにしている。
対照的に,浅層ネットワークの重み空間は不連続相転移を特徴とし,高次元幾何学の角度から深層学習における深層学習の利点を明らかにする。
我々の有効モデルはまた、ディープネットワーク内には、この部分の重みができるだけランダムに振る舞うという意味で、アーキテクチャの液体のような中心的な部分が存在し、アルゴリズム的な意味を持つことを示した。
我々のデータ駆動モデルは、高次元の重み空間においてディープラーニングが不合理的に有効である理由と、深層ネットワークが浅層ネットワークとどのように異なるかについての統計力学的な洞察を提供する。
関連論文リスト
- Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用
我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。
そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文 参考訳(メタデータ) (2024-02-06T15:34:44Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Engineering flexible machine learning systems by traversing
functionally-invariant paths [1.4999444543328289]
ニューラルネットワークのフレキシブルかつ連続的な適応を提供する微分幾何学フレームワークを導入する。
重み空間における測地路に沿った移動として適応を定式化し,二次目的に対応するネットワークを探索する。
控えめな計算資源を用いて、FIPアルゴリズムは連続的な学習とスパーシフィケーションタスクにおけるアートパフォーマンスの状態を同等に達成する。
論文 参考訳(メタデータ) (2022-04-30T19:44:56Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - KShapeNet: Riemannian network on Kendall shape space for Skeleton based
Action Recognition [7.183483982542308]
骨格に基づく行動認識のための幾何学的深層学習手法を提案する。
骨格はまずケンドールの形状空間上の軌跡としてモデル化され、次に線型接空間に写像される。
結果として得られた構造化データは、剛性および非剛性変換を最適化するレイヤを含むディープラーニングアーキテクチャに供給される。
論文 参考訳(メタデータ) (2020-11-24T10:14:07Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Gradients as Features for Deep Representation Learning [26.996104074384263]
本稿では,事前学習したディープ・ネットワークを様々なタスクに適応させることによって,ディープ・表現学習の課題に対処する。
我々の重要な革新は、事前訓練されたネットワークの勾配と活性化の両方を組み込んだ線形モデルの設計である。
我々は,実際の勾配を計算せずに,モデルのトレーニングと推論を効率的に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-12T02:57:28Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。