論文の概要: Gradient-Flow Optimization as Dynamic Random-Effects Inference: Testing and Early Stopping with Applications to Deep Learning
- arxiv url: http://arxiv.org/abs/2605.27991v2
- Date: Thu, 04 Jun 2026 16:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.578959
- Title: Gradient-Flow Optimization as Dynamic Random-Effects Inference: Testing and Early Stopping with Applications to Deep Learning
- Title(参考訳): 動的ランダム影響推論としてのグラディエントフロー最適化--ディープラーニングへの応用によるテストと早期停止
- Authors: Minhao Yao, Ruoyu Wang, Xihong Lin, Lin Liu, Zhonghua Liu,
- Abstract要約: 我々は勾配流学習のための統計的推論フレームワークを開発した。
トレーニング時間は、分散が再配置される方法を決定する分散成分パラメータになる。
固定勾配系における深層学習モデルは、理論の現代AIインスタンス化を提供する。
- 参考スコア(独自算出の注目度): 16.158545640309438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-flow optimization is usually viewed as an algorithmic procedure for minimizing empirical loss, with training duration selected by validation or heuristic early-stopping rules. We develop a statistical inference framework for the gradient-flow training trajectory itself. The central object is fixed-operator squared-error gradient flow: whenever the fitted value evolves through a time-invariant positive semidefinite training operator, the trained model output at each training time is exactly equivalent to the best linear unbiased predictor, or empirical-Bayes posterior mean, under a corresponding random-effects model. Under this representation, training time becomes a variance-component parameter governing how variance is reallocated from residual noise to structured signal. This turns two basic training decisions into inferential problems. First, whether training is needed is formulated as a variance-component test for signal beyond initialization. Second, how long to train is formulated as restricted maximum likelihood (REML) estimation of the training-time variance component. The resulting REML-guided early stopping rule has a spectral interpretation: it selects the training time at which optimized spectral losses become empirically decorrelated from the eigenvalues of the training operator, yielding an effective degrees-of-freedom measure for the evolving trained model. We establish asymptotic prediction optimality for fixed-design in-sample risk and, under additional kernel regularity conditions, random-design out-of-sample risk. Deep learning models in fixed-kernel gradient regimes provide canonical modern-AI instantiations of the theory. Numerical experiments and a UK Biobank proteomics application show that the proposed inferential approach attains competitive prediction accuracy while reducing the reliance on validation splits and repeated checkpoint evaluation.
- Abstract(参考訳): グラディエントフロー最適化は通常、経験的損失を最小限に抑えるアルゴリズムの手順と見なされ、検証やヒューリスティックな早期停止規則によってトレーニング期間が選択される。
本研究では,勾配流学習軌跡自体の統計的推論フレームワークを開発する。
中央オブジェクトは固定演算子二乗誤差勾配流であり、適合した値が時間不変の正準定値トレーニング演算子を介して進化するたびに、トレーニング時間毎のトレーニングされたモデル出力は、対応するランダムエフェクトモデルの下で、最良の線形偏差予測子または経験的ベイズ平均値と正確に等価である。
この表現の下では、トレーニング時間は、残留雑音から構造化信号への分散がどのように再配置されるかを決定する分散成分パラメータとなる。
これにより、2つの基本的なトレーニング決定が推論問題に変換される。
まず、トレーニングが必要かどうかを、初期化以外の信号に対する分散成分テストとして定式化する。
第2に、トレーニング時間分散成分の制限された最大度(REML)推定として、トレーニングまでの期間を定式化する。
最適化されたスペクトル損失がトレーニングオペレータの固有値と経験的に非相関となるトレーニング時間を選択し、進化したトレーニングモデルに対して効果的な自由度尺度を生成する。
固定設計のインサンプルリスクと、追加のカーネル規則性条件下では、ランダム設計のアウトサンプルリスクに対して、漸近的予測最適性を確立する。
固定カーネル勾配系における深層学習モデルは、理論の標準的現代AIインスタンス化を提供する。
数値実験と英国バイオバンク・プロテオミクスの応用により,提案した推論手法は,検証分割への依存を低減し,繰り返しチェックポイント評価を行うとともに,競合予測精度が向上することを示した。
関連論文リスト
- Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Optimal Condition for Initialization Variance in Deep Neural Networks: An SGD Dynamics Perspective [0.0]
勾配降下(SGD)は機械学習(ML)における最も基本的な最適化アルゴリズムの1つである。
この方程式から導かれる準定常分布とクルバック・リーブラー(KL)の発散による初期分布の関係について検討する。
MNISTおよびFashion-MNISTデータセット上で、古典的なSGDを用いて完全に接続されたニューラルネットワークをトレーニングすることにより、理論的結果を実験的に確認する。
論文 参考訳(メタデータ) (2025-08-18T11:18:12Z) - Fixed-Mean Gaussian Processes for Post-hoc Bayesian Deep Learning [11.22428369342346]
普遍カーネルを用いた場合、後続平均を任意の連続関数に固定する、スパース変分ガウス過程(GP)の新たなファミリを導入する。
具体的には、このGPの平均値を事前学習したDNNの出力に固定し、GPの予測分散を効果的に適合させて予測の不確かさを推定する。
実験の結果,FMGPは最先端手法と比較して不確実性評価と計算効率を両立させることがわかった。
論文 参考訳(メタデータ) (2024-12-05T14:17:16Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Improved uncertainty quantification for neural networks with Bayesian
last layer [0.0]
不確実性定量化は機械学習において重要な課題である。
本稿では,BLL を用いた NN の対数乗算可能性の再構成を行い,バックプロパゲーションを用いた効率的なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-02-21T20:23:56Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。