Fugu-MT 論文翻訳(概要): Feature learning in finite-width Bayesian deep linear networks with multiple outputs and convolutional layers

論文の概要: Feature learning in finite-width Bayesian deep linear networks with multiple outputs and convolutional layers

arxiv url: http://arxiv.org/abs/2406.03260v1
Date: Wed, 5 Jun 2024 13:37:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 18:10:52.623389
Title: Feature learning in finite-width Bayesian deep linear networks with multiple outputs and convolutional layers
Title（参考訳）: 複数の出力と畳み込み層を持つ有限幅ベイズ深い線形ネットワークにおける特徴学習
Authors: Federico Bassetti, Marco Gherardi, Alessandro Ingrosso, Mauro Pastore, Pietro Rotondo,
Abstract要約: 深い線形ネットワークは広く研究されているが、複数の出力と畳み込み層を持つ有限幅アーキテクチャの場合はほとんど知られていない。我々の研究は、この物理学の直観と用語を厳密なベイズ統計に翻訳する辞書を提供する。
参考スコア（独自算出の注目度）: 39.71511919246829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep linear networks have been extensively studied, as they provide simplified models of deep learning. However, little is known in the case of finite-width architectures with multiple outputs and convolutional layers. In this manuscript, we provide rigorous results for the statistics of functions implemented by the aforementioned class of networks, thus moving closer to a complete characterization of feature learning in the Bayesian setting. Our results include: (i) an exact and elementary non-asymptotic integral representation for the joint prior distribution over the outputs, given in terms of a mixture of Gaussians; (ii) an analytical formula for the posterior distribution in the case of squared error loss function (Gaussian likelihood); (iii) a quantitative description of the feature learning infinite-width regime, using large deviation theory. From a physical perspective, deep architectures with multiple outputs or convolutional layers represent different manifestations of kernel shape renormalization, and our work provides a dictionary that translates this physics intuition and terminology into rigorous Bayesian statistics.
Abstract（参考訳）: ディープラーニングの単純化モデルを提供するため、ディープ線形ネットワークは広く研究されている。しかし、複数の出力と畳み込み層を持つ有限幅アーキテクチャの場合はほとんど知られていない。本稿では,上記のネットワークのクラスによって実装された関数の統計値について厳密な結果を提供し,ベイズ的設定における特徴学習の完全な特徴付けに近づいた。結果は以下のとおりである。 i) ガウスの混合の言葉で与えられる出力に対する共同先行分布の完全かつ基本的な非漸近積分表現 (二)二乗誤差損失関数の場合の後方分布の解析公式(ガウス的可能性) (三)大偏差理論を用いて無限幅体制を学習する特徴を定量的に記述すること。物理の観点からは、複数の出力または畳み込み層を持つ深層構造は、カーネル形状の正規化の異なる表現であり、我々の研究は、この物理直観と用語を厳密なベイズ統計に翻訳する辞書を提供する。

関連論文リスト

Statistically guided deep learning [10.619901778151336]
非パラメトリック回帰のための理論的に確立されたディープラーニングアルゴリズムを提案する。本研究では、最適化、一般化、近似を同時に考慮したディープラーニングの理論解析により、新たなディープラーニング推定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-11T12:36:06Z)
Approximating Latent Manifolds in Neural Networks via Vanishing Ideals [20.464009622419766]
我々は, 無限イデアルがディープネットワークの潜在多様体をいかに特徴付けるかを示すことによって, 多様体学習と計算代数学の関連性を確立する。本稿では,中間層で事前学習されたネットワークを切断し,消滅するイデアルのジェネレータを介して各クラス多様体を近似するニューラルアーキテクチャを提案する。得られたモデルは、トレーニング済みのベースラインよりも著しく少ないが、同等の精度を維持し、高いスループットを実現し、パラメータが少ない。
論文参考訳（メタデータ） (2025-02-20T21:23:02Z)
Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文参考訳（メタデータ） (2024-02-21T18:35:27Z)
A theory of data variability in Neural Network Bayesian inference [0.70224924046445]
無限広ネットワークの一般化特性をカバーする場理論形式論を提供する。入力の統計的性質から一般化特性を導出する。データ可変性は、(varphi3+varphi4$)-理論を思い起こさせる非ガウス的作用をもたらすことを示す。
論文参考訳（メタデータ） (2023-07-31T14:11:32Z)
Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文参考訳（メタデータ） (2022-12-29T20:57:46Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
On Connecting Deep Trigonometric Networks with Deep Gaussian Processes: Covariance, Expressivity, and Neural Tangent Kernel [6.599344783327053]
重み空間ビューは以前関数空間で得られたのと同じ有効共分散関数が得られることを示す。トリグネットワークはフレキシブルで表現力があり、重み付けや特徴層においてパラメータに対して異なる事前分布を自由に適用できる。
論文参考訳（メタデータ） (2022-03-14T18:14:59Z)
Universal scaling laws in the gradient descent training of neural networks [10.508187462682308]
学習軌跡は,大きな訓練時間に明示的な境界によって特徴づけられることを示す。結果は,期待される損失に基づいて訓練された大規模ネットワークの進化のスペクトル解析に基づいている。
論文参考訳（メタデータ） (2021-05-02T16:46:38Z)
Joint Network Topology Inference via Structured Fusion Regularization [70.30364652829164]
結合ネットワークトポロジ推論は、異種グラフ信号から複数のグラフラプラシア行列を学習する標準的な問題を表す。新規な構造化融合正規化に基づく一般グラフ推定器を提案する。提案するグラフ推定器は高い計算効率と厳密な理論保証の両方を享受できることを示す。
論文参考訳（メタデータ） (2021-03-05T04:42:32Z)
Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文参考訳（メタデータ） (2021-01-15T11:39:09Z)
Semiparametric Nonlinear Bipartite Graph Representation Learning with Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文参考訳（メタデータ） (2020-03-02T16:40:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。