論文の概要: Origami in N dimensions: How feed-forward networks manufacture linear
separability
- arxiv url: http://arxiv.org/abs/2203.11355v1
- Date: Mon, 21 Mar 2022 21:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 11:19:32.468901
- Title: Origami in N dimensions: How feed-forward networks manufacture linear
separability
- Title(参考訳): N次元の折り紙:フィードフォワードネットワークが線形分離性をいかに生み出すか
- Authors: Christian Keup, Moritz Helias
- Abstract要約: フィードフォワードアーキテクチャは,非占有高次元におけるデータ多様体のプログレッシブフォールディング(プログレッシブフォールディング)という,分離性を達成するための主要なツールを手元に持っていることを示す。
せん断に基づく代替手法は、非常に深いアーキテクチャを必要とするが、現実のネットワークでは小さな役割しか果たさないと我々は主張する。
メカニスティックな洞察に基づいて、分離性の生成は必然的に、混合選択性およびバイモーダルチューニング曲線を示すニューロンを伴っていると予測する。
- 参考スコア(独自算出の注目度): 1.7404865362620803
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural networks can implement arbitrary functions. But, mechanistically, what
are the tools at their disposal to construct the target? For classification
tasks, the network must transform the data classes into a linearly separable
representation in the final hidden layer. We show that a feed-forward
architecture has one primary tool at hand to achieve this separability:
progressive folding of the data manifold in unoccupied higher dimensions. The
operation of folding provides a useful intuition in low-dimensions that
generalizes to high ones. We argue that an alternative method based on shear,
requiring very deep architectures, plays only a small role in real-world
networks. The folding operation, however, is powerful as long as layers are
wider than the data dimensionality, allowing efficient solutions by providing
access to arbitrary regions in the distribution, such as data points of one
class forming islands within the other classes. We argue that a link exists
between the universal approximation property in ReLU networks and the
fold-and-cut theorem (Demaine et al., 1998) dealing with physical paper
folding. Based on the mechanistic insight, we predict that the progressive
generation of separability is necessarily accompanied by neurons showing mixed
selectivity and bimodal tuning curves. This is validated in a network trained
on the poker hand task, showing the emergence of bimodal tuning curves during
training. We hope that our intuitive picture of the data transformation in deep
networks can help to provide interpretability, and discuss possible
applications to the theory of convolutional networks, loss landscapes, and
generalization.
TL;DR: Shows that the internal processing of deep networks can be thought of
as literal folding operations on the data distribution in the N-dimensional
activation space. A link to a well-known theorem in origami theory is provided.
- Abstract(参考訳): ニューラルネットワークは任意の関数を実装できる。
しかし、機械的には、ターゲットを構築するためのツールは何ですか?
分類タスクでは、ネットワークはデータクラスを最終隠れ層で線形に分離可能な表現に変換する必要がある。
フィードフォワードアーキテクチャは、この分離可能性を達成するための1つの主要なツールを持っていることを示している: 空でない高次元におけるデータ多様体の漸進的折り畳みである。
折り畳みの操作は、高次元に一般化する低次元における有用な直感を与える。
せん断に基づく代替手法は、非常に深いアーキテクチャを必要とするが、現実世界のネットワークでは小さな役割しか果たさない。
しかし、折り畳み操作は、層がデータ次元よりも広い限り強力であり、他のクラス内の1つのクラスを構成する島々のデータポイントのような分布内の任意の領域へのアクセスを提供することで効率的な解を可能にする。
我々は、ReLUネットワークにおける普遍近似特性と物理紙の折りたたみを扱う折りたたみ定理(Demaine et al., 1998)の間にリンクが存在することを論じる。
機構的洞察に基づいて, 分離性の進行的生成は, 選択性とバイモーダルチューニング曲線の混合を示すニューロンが伴うことを予測した。
これはポーカーハンドタスクでトレーニングされたネットワークで検証され、トレーニング中にバイモーダルチューニング曲線が出現することを示す。
深層ネットワークにおけるデータ変換の直感的なイメージが、解釈可能性の提供に役立ち、畳み込みネットワークの理論、失われた風景、一般化への可能性について論じることを期待します。
TL;DR: ディープネットワークの内部処理は、N次元のアクティベーション空間におけるデータ分布上のリテラル折り畳み演算と考えることができる。
折り紙理論におけるよく知られた定理へのリンクを提供する。
関連論文リスト
- ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Exploring explicit coarse-grained structure in artificial neural
networks [0.0]
本稿では, ニューラルネットワークの階層的粗粒度構造を用いて, 性能を劣化させることなく, 解釈性を向上させることを提案する。
ひとつはTaylorNetと呼ばれるニューラルネットワークで、入力データから出力結果への一般的なマッピングを直接テイラー級数で近似することを目的としている。
もう1つはデータ蒸留のための新しいセットアップで、入力データセットのマルチレベル抽象化を実行し、新しいデータを生成することができる。
論文 参考訳(メタデータ) (2022-11-03T13:06:37Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - A Theoretical View on Sparsely Activated Networks [21.156069843782017]
本稿では、一般的なアーキテクチャの健全な側面を捉えるデータ依存スパースネットワークの形式モデルを提案する。
次に、LSH(Locality sensitive hashing)に基づくルーティング関数を導入し、スパースネットワークがターゲット関数をどの程度うまく近似するかを判断する。
スパースネットワークはリプシッツ関数上の高密度ネットワークの近似力と一致することが証明できる。
論文 参考訳(メタデータ) (2022-08-08T23:14:48Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - ReduNet: A White-box Deep Network from the Principle of Maximizing Rate
Reduction [32.489371527159236]
この研究は、データ圧縮と識別表現の原理から、現代の深層(畳み込み)ネットワークを解釈することを目的とした、妥当な理論フレームワークの提供を試みる。
高次元マルチクラスデータに対して、最適な線形判別表現は、データセット全体と全てのサブセットの平均との符号化速度差を最大化することを示す。
速度減少目標を最適化するための基本的反復的勾配上昇スキームは,現代のディープネットワークの共通特性を共有する多層ディープネットワークであるReduNetに自然に導かれることを示す。
論文 参考訳(メタデータ) (2021-05-21T16:29:57Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。
すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。
単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文 参考訳(メタデータ) (2020-05-04T20:03:21Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。