論文の概要: AdaTerm: Adaptive T-Distribution Estimated Robust Moments towards
Noise-Robust Stochastic Gradient Optimizer
- arxiv url: http://arxiv.org/abs/2201.06714v1
- Date: Tue, 18 Jan 2022 03:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:14:19.225353
- Title: AdaTerm: Adaptive T-Distribution Estimated Robust Moments towards
Noise-Robust Stochastic Gradient Optimizer
- Title(参考訳): adaterm:適応型t分布推定ロバストモーメントによる雑音ロバスト確率勾配最適化器
- Authors: Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi and Kenji Sugimoto
- Abstract要約: 勾配降下(SGD)をノイズに対してより堅牢に改善することは自然な考えである。
AdaTermは、最初の運動量だけでなく、生徒のt分布に基づくすべての統計も引き起こしている。
この雑音適応行動により,AdaTermの優れた学習性能が確認された。
- 参考スコア(独自算出の注目度): 7.837855832568569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the problems to be optimized with deep learning become more practical,
their datasets inevitably contain a variety of noise, such as mislabeling and
substitution by estimated inputs/outputs, which would have negative impacts on
the optimization results. As a safety net, it is a natural idea to improve a
stochastic gradient descent (SGD) optimizer, which updates the network
parameters as the final process of learning, to be more robust to noise. The
related work revealed that the first momentum utilized in the Adam-like SGD
optimizers can be modified based on the noise-robust student's t-distribution,
resulting in inheriting the robustness to noise. In this paper, we propose
AdaTerm, which derives not only the first momentum but also all the involved
statistics based on the student's t-distribution. If the computed gradients
seem to probably be aberrant, AdaTerm is expected to exclude the computed
gradients for updates, and reinforce the robustness for the next updates;
otherwise, it updates the network parameters normally, and can relax the
robustness for the next updates. With this noise-adaptive behavior, the
excellent learning performance of AdaTerm was confirmed via typical
optimization problems with several cases where the noise ratio would be
different.
- Abstract(参考訳): ディープラーニングで最適化されるべき問題がより現実的になるにつれて、データセットは必然的に、推定入力/出力によるラベル付けや置換といった、最適化結果に悪影響を及ぼす様々なノイズを含む。
安全ネットとして、ネットワークパラメータを学習の最終過程として更新する確率勾配降下(SGD)最適化器をノイズに対してより堅牢に改善することは自然な考えである。
関連する研究により,adam-like sgdオプティマイザにおける最初の運動量は,ノイズロバスト学習者のt分布に基づいて修正可能となり,雑音に対するロバスト性が継承されることが判明した。
本稿では,第1の運動量だけでなく,生徒のt分布に基づくすべての統計量も導出するAdaTermを提案する。
計算された勾配が異常であると思われる場合、adatermは、更新のための計算された勾配を除外し、次の更新のロバスト性を強化することが期待されている。
この雑音適応行動により, adaterm の学習性能は, 雑音比が異なるいくつかの事例において, 典型的な最適化問題により確認された。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Recursive Inference for Variational Autoencoders [34.552283758419506]
従来の変分オートエンコーダ(VAE)の推論ネットワークは典型的に償却される。
この欠点に対処するために、最近の半修正アプローチが提案されている。
精度の高い償却推論アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-11-17T10:22:12Z) - Real-Time Optimization Meets Bayesian Optimization and Derivative-Free
Optimization: A Tale of Modifier Adaptation [0.0]
本稿では,不確実なプロセスのリアルタイム最適化において,プラントモデルミスマッチを克服するための修飾子適応方式について検討する。
提案したスキームは物理モデルを組み込んでおり、探査中のリスクを最小限に抑えるために信頼領域のアイデアに依存している。
取得関数の使用、プロセスノイズレベルを知る、または名目上のプロセスモデルを指定する利点を図示する。
論文 参考訳(メタデータ) (2020-09-18T12:57:17Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。