論文の概要: BrowNNe: Brownian Nonlocal Neurons & Activation Functions
- arxiv url: http://arxiv.org/abs/2406.15617v1
- Date: Fri, 21 Jun 2024 19:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:24:18.086144
- Title: BrowNNe: Brownian Nonlocal Neurons & Activation Functions
- Title(参考訳): BrowNNe:ブラウン非局所ニューロンと活性化機能
- Authors: Sriram Nagaraj, Truman Hickok,
- Abstract要約: 低トレーニングデータにおけるブラウンニューラルアクティベーション関数がReLUに勝っていることを示す。
本実験は,低トレーニングデータにおけるブラウン神経活性化機能の優れた機能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is generally thought that the use of stochastic activation functions in deep learning architectures yield models with superior generalization abilities. However, a sufficiently rigorous statement and theoretical proof of this heuristic is lacking in the literature. In this paper, we provide several novel contributions to the literature in this regard. Defining a new notion of nonlocal directional derivative, we analyze its theoretical properties (existence and convergence). Second, using a probabilistic reformulation, we show that nonlocal derivatives are epsilon-sub gradients, and derive sample complexity results for convergence of stochastic gradient descent-like methods using nonlocal derivatives. Finally, using our analysis of the nonlocal gradient of Holder continuous functions, we observe that sample paths of Brownian motion admit nonlocal directional derivatives, and the nonlocal derivatives of Brownian motion are seen to be Gaussian processes with computable mean and standard deviation. Using the theory of nonlocal directional derivatives, we solve a highly nondifferentiable and nonconvex model problem of parameter estimation on image articulation manifolds. Using Brownian motion infused ReLU activation functions with the nonlocal gradient in place of the usual gradient during backpropagation, we also perform experiments on multiple well-studied deep learning architectures. Our experiments indicate the superior generalization capabilities of Brownian neural activation functions in low-training data regimes, where the use of stochastic neurons beats the deterministic ReLU counterpart.
- Abstract(参考訳): 一般に、ディープラーニングアーキテクチャにおける確率的アクティベーション関数の使用は、より優れた一般化能力を持つモデルを生み出すと考えられている。
しかし、このヒューリスティックの十分な厳格な記述と理論的証明は文学に欠けている。
本稿では,この点に関して,いくつかの新たな貢献を行う。
非局所指向微分の新しい概念を定義することにより、その理論的性質(存在と収束)を分析する。
第2に,確率的再定式化を用いて,非局所微分がエプシロン-サブ勾配であることを示し,非局所微分を用いた確率的勾配降下法を収束させるサンプル複雑性を導出する。
最後に、ホルダー連続函数の非局所勾配解析を用いて、ブラウン運動のサンプル経路は非局所方向微分を許容し、ブラウン運動の非局所微分は計算可能な平均偏差と標準偏差を持つガウス過程である。
非局所方向微分の理論を用いて、画像調音多様体上のパラメータ推定の高微分可能・非凸モデル問題を解く。
バックプロパゲーション中に通常の勾配の代わりに非局所勾配を持つブラウン運動注入型ReLU活性化関数を用いて、複数のよく研究されたディープラーニングアーキテクチャの実験を行う。
我々の実験は、確率的ニューロンの使用が決定論的ReLUに勝る低トレーニングデータ構造において、ブラウン神経活性化機能の優れた一般化能力を示す。
関連論文リスト
- Linearization Turns Neural Operators into Function-Valued Gaussian Processes [23.85470417458593]
ニューラル作用素におけるベイズの不確かさを近似する新しい枠組みを導入する。
我々の手法は関数型プログラミングからカリー化の概念の確率論的類似体と解釈できる。
我々は、異なるタイプの偏微分方程式への応用を通して、我々のアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-07T16:43:54Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Stochastic Langevin Differential Inclusions with Applications to Machine Learning [5.274477003588407]
ランゲヴィン型微分包含物の流動と性質に関する基礎的な結果を示す。
特に、解の存在が強く、また自由エネルギー関数の正準最小化が示される。
論文 参考訳(メタデータ) (2022-06-23T08:29:17Z) - Experimental Design for Linear Functionals in Reproducing Kernel Hilbert
Spaces [102.08678737900541]
線形汎関数に対するバイアス認識設計のためのアルゴリズムを提供する。
準ガウス雑音下での固定および適応設計に対する漸近的でない信頼集合を導出する。
論文 参考訳(メタデータ) (2022-05-26T20:56:25Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。