論文の概要: GRADSTOP: Early Stopping of Gradient Descent via Posterior Sampling
- arxiv url: http://arxiv.org/abs/2508.19028v2
- Date: Wed, 27 Aug 2025 05:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 12:43:57.513671
- Title: GRADSTOP: Early Stopping of Gradient Descent via Posterior Sampling
- Title(参考訳): GRADSTOP: 後方サンプリングによるグラディエントDescentの早期停止
- Authors: Arash Jamshidi, Lauri Seppäläinen, Katsiaryna Haitsiukevich, Hoang Phuc Hau Luu, Anton Björklund, Kai Puolamäki,
- Abstract要約: 機械学習モデルは、しばしば過剰適合に悩まされ、目に見えないデータに対する予測性能が低下する。
標準解はホールドアウト検証セットを使用して早期に停止し、検証損失の減少が止まった場合に最小化を停止する。
本稿では,勾配降下アルゴリズムによって生成される勾配情報のみを利用する新しい早期停止法であるGRADSTOPを提案する。
- 参考スコア(独自算出の注目度): 4.938367626424121
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning models are often learned by minimising a loss function on the training data using a gradient descent algorithm. These models often suffer from overfitting, leading to a decline in predictive performance on unseen data. A standard solution is early stopping using a hold-out validation set, which halts the minimisation when the validation loss stops decreasing. However, this hold-out set reduces the data available for training. This paper presents GRADSTOP, a novel stochastic early stopping method that only uses information in the gradients, which are produced by the gradient descent algorithm ``for free.'' Our main contributions are that we estimate the Bayesian posterior by the gradient information, define the early stopping problem as drawing sample from this posterior, and use the approximated posterior to obtain a stopping criterion. Our empirical evaluation shows that GRADSTOP achieves a small loss on test data and compares favourably to a validation-set-based stopping criterion. By leveraging the entire dataset for training, our method is particularly advantageous in data-limited settings, such as transfer learning. It can be incorporated as an optional feature in gradient descent libraries with only a small computational overhead. The source code is available at https://github.com/edahelsinki/gradstop.
- Abstract(参考訳): 機械学習モデルは、勾配降下アルゴリズムを用いてトレーニングデータ上の損失関数を最小化することによってしばしば学習される。
これらのモデルは、しばしば過剰適合に悩まされ、目に見えないデータに対する予測性能が低下する。
標準解はホールドアウト検証セットを使用して早期に停止し、検証損失の減少が止まった場合に最小化を停止する。
しかし、このホールドアウトセットは、トレーニングに利用可能なデータを減らす。
本稿では,勾配降下アルゴリズム ``for free' によって生成される勾配情報のみを利用する確率的早期停止法 GRADSTOP を提案する。
「」の主な貢献は、勾配情報によりベイズ後部を推定し、早期停止問題をこの後部から抽出した標本として定義し、近似された後部を用いて停止基準を得ることである。
実験により, GRADSTOPはテストデータの損失が小さく, 検証セットに基づく停止基準と良好に比較できることがわかった。
データセット全体をトレーニングに活用することにより、転送学習などのデータ制限設定において特に有利となる。
計算オーバーヘッドの少ない勾配降下ライブラリのオプション機能として組み込むことができる。
ソースコードはhttps://github.com/edahelsinki/gradstop.comから入手できる。
関連論文リスト
- Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。
本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。
我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-05T00:49:59Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - A Negative Result on Gradient Matching for Selective Backprop [8.463693396893731]
ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。
トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。
我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。
損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
論文 参考訳(メタデータ) (2023-12-08T13:03:10Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。