Fugu-MT 論文翻訳(概要): A Bayesian Perspective on Training Speed and Model Selection

論文の概要: A Bayesian Perspective on Training Speed and Model Selection

arxiv url: http://arxiv.org/abs/2010.14499v1
Date: Tue, 27 Oct 2020 17:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 12:32:12.644744
Title: A Bayesian Perspective on Training Speed and Model Selection
Title（参考訳）: 訓練速度とモデル選択に関するベイズ的視点
Authors: Clare Lyle, Lisa Schut, Binxin Ru, Yarin Gal, Mark van der Wilk
Abstract要約: モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
参考スコア（独自算出の注目度）: 51.15664724311443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We take a Bayesian perspective to illustrate a connection between training speed and the marginal likelihood in linear models. This provides two major insights: first, that a measure of a model's training speed can be used to estimate its marginal likelihood. Second, that this measure, under certain conditions, predicts the relative weighting of models in linear model combinations trained to minimize a regression loss. We verify our results in model selection tasks for linear models and for the infinite-width limit of deep neural networks. We further provide encouraging empirical evidence that the intuition developed in these settings also holds for deep neural networks trained with stochastic gradient descent. Our results suggest a promising new direction towards explaining why neural networks trained with stochastic gradient descent are biased towards functions that generalize well.
Abstract（参考訳）: 線形モデルにおけるトレーニング速度と限界確率の関係を説明するためにベイズ的視点を用いる。第一に、モデルのトレーニング速度の尺度は、その限界確率を推定するために使用することができる。第二に、ある条件下では回帰損失を最小限に抑えるために訓練された線形モデル組み合わせにおけるモデルの相対重み付けを予測する。線形モデルおよびディープニューラルネットワークの無限幅限界に対するモデル選択タスクにおいて,結果を検証する。我々はさらに,これらの設定で開発された直観が,確率的勾配降下を訓練した深層ニューラルネットワークにも有効であることを示す実証的証拠を与える。その結果,確率的勾配降下を訓練したニューラルネットワークが一般化する関数に偏っている理由を説明するための新しい方向性が示唆された。

関連論文リスト

Information-theoretic reduction of deep neural networks to linear models in the overparametrized proportional regime [5.376943739151208]
我々は、いわゆる比例スケーリング体制において、任意の深さで完全に訓練されたニューラルネットワークを厳格に分析する。本研究では,教師が学習したデータから学習したベイジアンディープニューラルネットワークモデル間の情報理論等価性を実証する。
論文参考訳（メタデータ） (2025-05-06T14:36:07Z)
Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文参考訳（メタデータ） (2024-12-21T20:23:47Z)
Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文参考訳（メタデータ） (2024-04-29T23:38:58Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Quadratic models for understanding catapult dynamics of neural networks [15.381097076708535]
近年提案されたニューラル二次モデルでは,そのようなモデルを大きな学習率で訓練する際に生じる「カタパルト相」が示されることが示されている。さらに,2次モデルがニューラルネットワーク解析の有効なツールであることを示す。
論文参考訳（メタデータ） (2022-05-24T05:03:06Z)
Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文参考訳（メタデータ） (2022-02-11T23:04:00Z)
Neural Capacitance: A New Perspective of Neural Network Selection via Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文参考訳（メタデータ） (2022-01-11T20:53:15Z)
Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文参考訳（メタデータ） (2021-06-24T01:40:17Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Embedded training of neural-network sub-grid-scale turbulence models [0.0]
ディープニューラルネットワークモデルの重みは、制御フロー方程式と共に最適化され、サブグリッドスケールの応力のモデルを提供する。トレーニングは勾配降下法で行われ、随伴ナビエ-ストークス方程式を用いてモデル重みのエンドツーエンドの感度を速度場に与える。
論文参考訳（メタデータ） (2021-05-03T17:28:39Z)
The Gaussian equivalence of generative models for learning with shallow neural networks [30.47878306277163]
本研究では,事前学習した生成モデルから得られたデータに基づいて学習したニューラルネットワークの性能について検討する。この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
論文参考訳（メタデータ） (2020-06-25T21:20:09Z)
Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文参考訳（メタデータ） (2020-06-04T21:51:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。