論文の概要: Training Autoencoders Using Stochastic Hessian-Free Optimization with LSMR
- arxiv url: http://arxiv.org/abs/2504.13302v1
- Date: Thu, 17 Apr 2025 19:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:24:07.689343
- Title: Training Autoencoders Using Stochastic Hessian-Free Optimization with LSMR
- Title(参考訳): LSMRを用いた確率的ヘッセンフリー最適化を用いたオートエンコーダの訓練
- Authors: Ibrahim Emirahmetoglu, David E. Stewart,
- Abstract要約: Hessian-free (HF) 最適化は、ディープオートエンコーダを効果的に訓練するために示されている。
本研究では,大規模な疎線形系を効果的に解けるLSMR法を提案する。
オーバーフィッティングを軽減するために,新しいミニバッチ選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.030693357740321774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hessian-free (HF) optimization has been shown to effectively train deep autoencoders (Martens, 2010). In this paper, we aim to accelerate HF training of autoencoders by reducing the amount of data used in training. HF utilizes the conjugate gradient algorithm to estimate update directions. Instead, we propose using the LSMR method, which is known for effectively solving large sparse linear systems. We also incorporate Chapelle & Erhan (2011)'s improved preconditioner for HF optimization. In addition, we introduce a new mini-batch selection algorithm to mitigate overfitting. Our algorithm starts with a small subset of the training data and gradually increases the mini-batch size based on (i) variance estimates obtained during the computation of a mini-batch gradient (Byrd et al., 2012) and (ii) the relative decrease in objective value for the validation data. Our experimental results demonstrate that our stochastic Hessian-free optimization, using the LSMR method and the new sample selection algorithm, leads to rapid training of deep autoencoders with improved generalization error.
- Abstract(参考訳): Hessian-free (HF) 最適化は、ディープオートエンコーダを効果的に訓練するために示されている(Martens, 2010)。
本稿では, オートエンコーダのHFトレーニングを高速化し, トレーニングに使用するデータ量を削減することを目的とする。
HFは共役勾配アルゴリズムを用いて更新方向を推定する。
代わりに,大規模な疎線形系を効果的に解くLSMR法を提案する。
また、Chapelle & Erhan (2011) の HF 最適化のための改良されたプレコンディショナーも組み込んだ。
さらに、オーバーフィッティングを軽減するために、新しいミニバッチ選択アルゴリズムを導入する。
我々のアルゴリズムは、トレーニングデータの小さなサブセットから始まり、徐々にミニバッチサイズを増大させる。
(i)ミニバッチ勾配計算中に得られた分散推定値(Byrd et al , 2012)
(ii)検証データに対する目的値の相対的減少。
実験の結果,LSMR法と新しいサンプル選択アルゴリズムを用いた確率的ヘッセンフリー最適化により,一般化誤差を改良したディープオートエンコーダの迅速な訓練が得られた。
関連論文リスト
- Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering [36.896695278624776]
従来の分散データ-並列勾配勾配は、モデルパラメータの更新に使用されるマクロバッチを計算するために、マイクロバッチの勾配を平均化する。
本研究では,マイクログラディエント間のコサイン距離を計算し,グラディエンス分散を簡易かつ効果的に低減する手法を提案する。
従来のトレーニング手法と比較して,検証精度が最大18.2%向上するケースもある。
論文 参考訳(メタデータ) (2024-12-24T00:00:11Z) - Adaptive Random Fourier Features Training Stabilized By Resampling With Applications in Image Regression [0.8947831206263182]
浅層ニューラルネットワークのための適応型ランダムフーリエ(ARFF)訓練アルゴリズムを提案する。
本手法は, 粒子フィルタ型再サンプリング法を用いて, トレーニング過程を安定化し, パラメータ選択に対する感度を低下させる。
論文 参考訳(メタデータ) (2024-10-08T22:08:03Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Input Normalized Stochastic Gradient Descent Training of Deep Neural
Networks [2.1485350418225244]
本稿では,入力正規化勾配 Descent (INSGD) と呼ばれる機械学習モデルを学習するための新しい最適化アルゴリズムを提案する。
我々のアルゴリズムは,NLMSと同様,学習速度に適用した$ell_$および$ell_$ベースの正規化を用いて,勾配勾配を用いてネットワーク重みを更新する。
本稿では,ResNet-18,WResNet-20,ResNet-50,玩具ニューラルネットワークを用いて,ベンチマークデータセット上でのトレーニングアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2022-12-20T00:08:37Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptive Low-Rank Factorization to regularize shallow and deep neural
networks [9.607123078804959]
低ランク行列因子化(LRF)を用いて、学習過程に沿って学習モデルのパラメータをドロップアウトする。
SVHNとCIFAR-10データセットにおけるAdaptiveLRFの最良の結果は98%、94.1%、97.9%、94%の精度である。
論文 参考訳(メタデータ) (2020-05-05T08:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。