論文の概要: A Theoretical View on Sparsely Activated Networks
- arxiv url: http://arxiv.org/abs/2208.04461v1
- Date: Mon, 8 Aug 2022 23:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:15:45.946030
- Title: A Theoretical View on Sparsely Activated Networks
- Title(参考訳): スパース・アクティベート・ネットワークの理論的展望
- Authors: Cenk Baykal, Nishanth Dikkala, Rina Panigrahy, Cyrus Rashtchian, Xin
Wang
- Abstract要約: 本稿では、一般的なアーキテクチャの健全な側面を捉えるデータ依存スパースネットワークの形式モデルを提案する。
次に、LSH(Locality sensitive hashing)に基づくルーティング関数を導入し、スパースネットワークがターゲット関数をどの程度うまく近似するかを判断する。
スパースネットワークはリプシッツ関数上の高密度ネットワークの近似力と一致することが証明できる。
- 参考スコア(独自算出の注目度): 21.156069843782017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep and wide neural networks successfully fit very complex functions today,
but dense models are starting to be prohibitively expensive for inference. To
mitigate this, one promising direction is networks that activate a sparse
subgraph of the network. The subgraph is chosen by a data-dependent routing
function, enforcing a fixed mapping of inputs to subnetworks (e.g., the Mixture
of Experts (MoE) paradigm in Switch Transformers). However, prior work is
largely empirical, and while existing routing functions work well in practice,
they do not lead to theoretical guarantees on approximation ability. We aim to
provide a theoretical explanation for the power of sparse networks. As our
first contribution, we present a formal model of data-dependent sparse networks
that captures salient aspects of popular architectures. We then introduce a
routing function based on locality sensitive hashing (LSH) that enables us to
reason about how well sparse networks approximate target functions. After
representing LSH-based sparse networks with our model, we prove that sparse
networks can match the approximation power of dense networks on Lipschitz
functions. Applying LSH on the input vectors means that the experts interpolate
the target function in different subregions of the input space. To support our
theory, we define various datasets based on Lipschitz target functions, and we
show that sparse networks give a favorable trade-off between number of active
units and approximation quality.
- Abstract(参考訳): 深層および広層ニューラルネットワークは、今日では非常に複雑な機能に適合するが、密集したモデルは推論に非常に高価になってきている。
これを軽減するために、ある有望な方向は、ネットワークのスパース部分グラフを活性化するネットワークである。
サブグラフはデータ依存のルーティング関数によって選択され、サブネットワークへの入力の固定マッピング(Switch TransformersのMixture of Experts (MoE)パラダイムなど)を行う。
しかし、事前の作業はほとんど経験的であり、既存のルーティング関数は実際はうまく機能するが、近似能力に関する理論的保証は得られない。
我々はスパースネットワークのパワーについて理論的に説明することを目指している。
最初の貢献として、人気のあるアーキテクチャの突出した側面を捉えたデータ依存スパースネットワークの形式モデルを提案する。
次に、LSH(Locality sensitive hashing)に基づくルーティング関数を導入し、スパースネットワークがターゲット関数をどの程度うまく近似するかを判断する。
LSHに基づくスパースネットワークをモデルで表現した後、スパースネットワークはリプシッツ関数上の高密度ネットワークの近似力と一致することを証明した。
入力ベクトルにLSHを適用することは、専門家が入力空間の異なる部分領域で対象関数を補間することを意味する。
この理論を支持するために,我々はリプシッツ目標関数に基づく様々なデータセットを定義し,スパースネットワークがアクティブユニット数と近似品質との間に好都合なトレードオフを与えることを示した。
関連論文リスト
- ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Probabilistic Verification of ReLU Neural Networks via Characteristic
Functions [11.489187712465325]
我々は、周波数領域における確率理論のアイデアを用いて、ReLUニューラルネットワークの確率論的検証保証を提供する。
我々は、(深い)フィードフォワードニューラルネットワークを有限地平線上の離散力学系として解釈する。
出力集合の累積分布関数を求め,ネットワークが期待通りに動作しているかどうかを確認する。
論文 参考訳(メタデータ) (2022-12-03T05:53:57Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Benefits of Overparameterized Convolutional Residual Networks: Function
Approximation under Smoothness Constraint [48.25573695787407]
大規模なConvResNetは関数の値から目的関数を近似できるだけでなく、一階スムーズ性も十分に発揮できることを示す。
我々の理論は、実際にディープ・ワイド・ネットワークを使うことの利点を部分的に正当化している。
論文 参考訳(メタデータ) (2022-06-09T15:35:22Z) - The Connection Between Approximation, Depth Separation and Learnability
in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。
対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文 参考訳(メタデータ) (2021-01-31T11:32:30Z) - Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper
Representations [12.716429755564821]
DPCN(Deep-Predictive-Coding Network)は、フィードフォワードとフィードバック接続に依存する階層的な生成モデルである。
DPCNの重要な要素は、動的モデルのスパース状態を明らかにする前向きの推論手順である。
我々は,加速近位勾配に基づく実験的および理論的収束性の向上した最適化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-18T02:30:13Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。