論文の概要: Half-Space Feature Learning in Neural Networks
- arxiv url: http://arxiv.org/abs/2404.04312v1
- Date: Fri, 5 Apr 2024 12:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:37:10.654470
- Title: Half-Space Feature Learning in Neural Networks
- Title(参考訳): ニューラルネットワークにおける半空間特徴学習
- Authors: Mahesh Lorik Yadav, Harish Guruprasad Ramaswamy, Chandrashekar Lakshminarayanan,
- Abstract要約: 現在、ニューラルネットワークの特徴学習には2つの極端な視点がある。
どちらの解釈も、新しい観点からは正しいとは考えにくい。
私たちはこの代替解釈を使って、Deep Linearly Gated Network (DLGN)と呼ばれるモデルを動かす。
- 参考スコア(独自算出の注目度): 2.3249139042158853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There currently exist two extreme viewpoints for neural network feature learning -- (i) Neural networks simply implement a kernel method (a la NTK) and hence no features are learned (ii) Neural networks can represent (and hence learn) intricate hierarchical features suitable for the data. We argue in this paper neither interpretation is likely to be correct based on a novel viewpoint. Neural networks can be viewed as a mixture of experts, where each expert corresponds to a (number of layers length) path through a sequence of hidden units. We use this alternate interpretation to motivate a model, called the Deep Linearly Gated Network (DLGN), which sits midway between deep linear networks and ReLU networks. Unlike deep linear networks, the DLGN is capable of learning non-linear features (which are then linearly combined), and unlike ReLU networks these features are ultimately simple -- each feature is effectively an indicator function for a region compactly described as an intersection of (number of layers) half-spaces in the input space. This viewpoint allows for a comprehensive global visualization of features, unlike the local visualizations for neurons based on saliency/activation/gradient maps. Feature learning in DLGNs is shown to happen and the mechanism with which this happens is through learning half-spaces in the input space that contain smooth regions of the target function. Due to the structure of DLGNs, the neurons in later layers are fundamentally the same as those in earlier layers -- they all represent a half-space -- however, the dynamics of gradient descent impart a distinct clustering to the later layer neurons. We hypothesize that ReLU networks also have similar feature learning behaviour.
- Abstract(参考訳): 現在、ニューラルネットワークの特徴学習には2つの極端な視点がある。
二 ニューラルネットワークが単にカーネルメソッド(ラ・NTK)を実装するだけで、そのため特徴が学習されないこと。
(ii) ニューラルネットワークは、データに適した複雑な階層的特徴を表現(そして学習)することができる。
この論文では、どちらの解釈も斬新な視点で正しいとは考えにくいと論じている。
ニューラルネットワークは専門家の混在と見なすことができ、各専門家は隠されたユニットのシーケンスを通した(層の長さの)パスに対応する。
我々は、この代替解釈を用いて、深い線形ネットワークとReLUネットワークの中間に位置するDeep Linearly Gated Network (DLGN)と呼ばれるモデルを動機付ける。
深い線形ネットワークとは異なり、DLGNは非線形特徴(後に線形結合される)を学習でき、ReLUネットワークとは異なりこれらの特徴は究極的には単純であり、各特徴は入力空間内の(層数)ハーフスペースの交叉としてコンパクトに記述された領域の指標関数である。
この視点は、サリエンシ/アクティベーション/グラディエントマップに基づいたニューロンの局所的な可視化とは異なり、機能の包括的なグローバルな可視化を可能にする。
DLGNにおける特徴学習は起こり、そのメカニズムは、対象関数の滑らかな領域を含む入力空間のハーフスペースを学習することである。
DLGNの構造のため、後層のニューロンは基本的に前層のニューロンと同じであり、いずれも半空間を表すが、勾配降下のダイナミクスは後層のニューロンに異なるクラスタリングを与える。
我々は、ReLUネットワークも似たような特徴学習行動を持っていると仮定する。
関連論文リスト
- Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。
DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。
我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Exploring the Approximation Capabilities of Multiplicative Neural
Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。
以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。
これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-01-11T17:57:33Z) - How and what to learn:The modes of machine learning [7.085027463060304]
本稿では, 重み経路解析(WPA)と呼ばれる新しい手法を提案し, 多層ニューラルネットワークのメカニズムについて検討する。
WPAは、ニューラルネットワークが情報を「ホログラフィック」な方法で保存し、活用していることを示し、ネットワークはすべてのトレーニングサンプルをコヒーレントな構造にエンコードする。
隠れた層状ニューロンは学習過程の後半で異なるクラスに自己組織化することが判明した。
論文 参考訳(メタデータ) (2022-02-28T14:39:06Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Exploiting Heterogeneity in Operational Neural Networks by Synaptic
Plasticity [87.32169414230822]
最近提案されたネットワークモデルであるオペレーショナルニューラルネットワーク(ONN)は、従来の畳み込みニューラルネットワーク(CNN)を一般化することができる。
本研究では, 生体ニューロンにおける本質的な学習理論を示すSynaptic Plasticityパラダイムに基づいて, ネットワークの隠蔽ニューロンに対する最強演算子集合の探索に焦点をあてる。
高難易度問題に対する実験結果から、神経細胞や層が少なくても、GISベースのONNよりも優れた学習性能が得られることが示された。
論文 参考訳(メタデータ) (2020-08-21T19:03:23Z) - Locality Guided Neural Networks for Explainable Artificial Intelligence [12.435539489388708]
LGNN(Locality Guided Neural Network)と呼ばれる,バック伝搬のための新しいアルゴリズムを提案する。
LGNNはディープネットワークの各層内の隣接ニューロン間の局所性を保っている。
実験では,CIFAR100 上の画像分類のための様々な VGG と Wide ResNet (WRN) ネットワークを訓練した。
論文 参考訳(メタデータ) (2020-07-12T23:45:51Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。