論文の概要: Injectivity capacity of ReLU gates
- arxiv url: http://arxiv.org/abs/2410.20646v1
- Date: Mon, 28 Oct 2024 00:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:15:23.564141
- Title: Injectivity capacity of ReLU gates
- Title(参考訳): ReLUゲートのインジェクティビティキャパシティ
- Authors: Mihailo Stojnic,
- Abstract要約: 本稿ではReLUネットワーク層のインジェクティビティ特性について考察する。
我々は,$ell_0$の球面パーセプトロンと暗黙的にReLU層インジェクティビティを扱う強力なプログラムを開発する。
得られた結果は[40]からのレプリカ予測とかなりよく一致している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We consider the injectivity property of the ReLU networks layers. Determining the ReLU injectivity capacity (ratio of the number of layer's inputs and outputs) is established as isomorphic to determining the capacity of the so-called $\ell_0$ spherical perceptron. Employing \emph{fully lifted random duality theory} (fl RDT) a powerful program is developed and utilized to handle the $\ell_0$ spherical perceptron and implicitly the ReLU layers injectivity. To put the entire fl RDT machinery in practical use, a sizeable set of numerical evaluations is conducted as well. The lifting mechanism is observed to converge remarkably fast with relative corrections in the estimated quantities not exceeding $\sim 0.1\%$ already on the third level of lifting. Closed form explicit analytical relations among key lifting parameters are uncovered as well. In addition to being of incredible importance in handling all the required numerical work, these relations also shed a new light on beautiful parametric interconnections within the lifting structure. Finally, the obtained results are also shown to fairly closely match the replica predictions from [40].
- Abstract(参考訳): 本稿ではReLUネットワーク層のインジェクティビティ特性について考察する。
ReLUインジェクティビティキャパシティ(層の入力と出力の比率)を決定することは、いわゆる$\ell_0$球状パーセプトロンのキャパシティを決定するのと同型として確立される。
emph{fully lifted random duality theory} (fl RDT) を用いて、$\ell_0$ 球面パーセプトロンと暗黙的にReLU層注入性を扱う強力なプログラムを開発し、利用する。
また, Fl RDT 装置全体を実用化するために, 小型の数値評価も実施した。
昇降機構は、第3レベルの昇降で既に$\sim 0.1\%を超えると推定された量の相対的な補正を伴って、著しく高速に収束することが観察された。
鍵持ち上げパラメータ間の閉じた形式的明示的な分析関係も明らかにされている。
これらの関係は、必要なすべての数値的な作業を扱う上で非常に重要であるだけでなく、リフト構造内の美しいパラメトリックな相互接続にも新たな光を放ちました。
最後に、得られた結果は[40]からのレプリカ予測とかなりよく一致していることを示す。
関連論文リスト
- $α$-TCVAE: On the relationship between Disentanglement and Diversity [21.811889512977924]
本稿では,新しい全相関(TC)下界を用いて最適化された変分オートエンコーダである$alpha$-TCVAEを紹介する。
本稿では,不整合表現がより優れた生成能力と多様性をもたらすという考えを支持する定量的分析について述べる。
以上の結果から,$alpha$-TCVAEはベースラインよりも不整合表現を一貫して学習し,より多様な観測結果を生成することが示された。
論文 参考訳(メタデータ) (2024-11-01T13:50:06Z) - Constrained Exploration via Reflected Replica Exchange Stochastic Gradient Langevin Dynamics [10.290462113848054]
ReSGLDは、大規模データセットの非二乗学習タスクに有効なツールである。
制約付きマルチモーダル分布と画像分類におけるシミュレーション効率の役割について検討する。
論文 参考訳(メタデータ) (2024-05-13T15:25:03Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Gate-based spin readout of hole quantum dots with site-dependent
$g-$factors [101.23523361398418]
ゲート型反射率計を用いたスピンリードアウトによりシリコン中の二重量子ドットを実験的に検討した。
磁気分光法により生じる反射位相信号の特徴は,2点のサイト依存の$g-$factorに関する情報を伝達する。
論文 参考訳(メタデータ) (2022-06-27T09:07:20Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Physics-aware deep neural networks for surrogate modeling of turbulent
natural convection [0.0]
Rayleigh-B'enard乱流流に対するPINNのサーロゲートモデルの使用を検討する。
標準ピンの精度が低いゾーンであるトレーニング境界に近い正規化として、どのように機能するかを示す。
50億のDNS座標全体のサロゲートの予測精度は、相対的なL2ノルムで[0.3% -- 4%]の範囲のすべてのフロー変数のエラーをもたらします。
論文 参考訳(メタデータ) (2021-03-05T09:48:57Z) - Sparse Representations of Positive Functions via First and Second-Order
Pseudo-Mirror Descent [15.340540198612823]
推定器の範囲が非負である必要がある場合、予測されるリスク問題を考察する。
Emphpseudo-gradientsを用いた近似ミラーの1階および2階の変種を開発した。
実験は、実際に不均一なプロセス強度推定に好適な性能を示す。
論文 参考訳(メタデータ) (2020-11-13T21:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。