論文の概要: AdaTerm: Adaptive T-Distribution Estimated Robust Moments for
Noise-Robust Stochastic Gradient Optimization
- arxiv url: http://arxiv.org/abs/2201.06714v3
- Date: Wed, 23 Aug 2023 04:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 19:28:01.807856
- Title: AdaTerm: Adaptive T-Distribution Estimated Robust Moments for
Noise-Robust Stochastic Gradient Optimization
- Title(参考訳): 雑音ロバスト確率勾配最適化のための適応型t分布推定ロバストモーメント
- Authors: Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi and Takamitsu Matsubara
- Abstract要約: 本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。
これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 14.531550983885772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the increasing practicality of deep learning applications, practitioners
are inevitably faced with datasets corrupted by noise from various sources such
as measurement errors, mislabeling, and estimated surrogate inputs/outputs that
can adversely impact the optimization results. It is a common practice to
improve the optimization algorithm's robustness to noise, since this algorithm
is ultimately in charge of updating the network parameters. Previous studies
revealed that the first-order moment used in Adam-like stochastic gradient
descent optimizers can be modified based on the Student's t-distribution. While
this modification led to noise-resistant updates, the other associated
statistics remained unchanged, resulting in inconsistencies in the assumed
models. In this paper, we propose AdaTerm, a novel approach that incorporates
the Student's t-distribution to derive not only the first-order moment but also
all the associated statistics. This provides a unified treatment of the
optimization process, offering a comprehensive framework under the statistical
model of the t-distribution for the first time. The proposed approach offers
several advantages over previously proposed approaches, including reduced
hyperparameters and improved robustness and adaptability. This noise-adaptive
behavior contributes to AdaTerm's exceptional learning performance, as
demonstrated through various optimization problems with different and/or
unknown noise ratios. Furthermore, we introduce a new technique for deriving a
theoretical regret bound without relying on AMSGrad, providing a valuable
contribution to the field
- Abstract(参考訳): ディープラーニングアプリケーションの実用性が向上するにつれ、測定誤差やラベルミス、最適化結果に悪影響を及ぼす可能性のある推定サロゲート入力/出力など、さまざまなソースからのノイズによって、実践者は必然的にデータセットに直面することになる。
このアルゴリズムは最終的にネットワークパラメータの更新を担当しているため、最適化アルゴリズムのノイズに対するロバスト性を改善する一般的なプラクティスである。
従来の研究では、アダムのような確率勾配勾配最適化器で使用される1次モーメントは、学生のt分布に基づいて修正可能であることが判明した。
この変更はノイズ耐性の更新につながったが、他の関連する統計は変更されず、仮定されたモデルに矛盾が生じた。
本稿では,学生のt分布を取り入れ,一階のモーメントだけでなく,関連するすべての統計情報も導出する新しい手法であるadatermを提案する。
これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
提案手法は, ハイパーパラメータの低減やロバスト性の向上, 適応性の向上など, 従来の手法よりもいくつかの利点がある。
この雑音適応的挙動は、異なる雑音比または未知の雑音比の様々な最適化問題を通して示されるように、AdaTermの例外的な学習性能に寄与する。
さらに,amsgrad に頼らずに理論的な後悔を導き出す新しい手法を導入し,その分野への価値ある貢献を提供する。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Recursive Inference for Variational Autoencoders [34.552283758419506]
従来の変分オートエンコーダ(VAE)の推論ネットワークは典型的に償却される。
この欠点に対処するために、最近の半修正アプローチが提案されている。
精度の高い償却推論アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-11-17T10:22:12Z) - Real-Time Optimization Meets Bayesian Optimization and Derivative-Free
Optimization: A Tale of Modifier Adaptation [0.0]
本稿では,不確実なプロセスのリアルタイム最適化において,プラントモデルミスマッチを克服するための修飾子適応方式について検討する。
提案したスキームは物理モデルを組み込んでおり、探査中のリスクを最小限に抑えるために信頼領域のアイデアに依存している。
取得関数の使用、プロセスノイズレベルを知る、または名目上のプロセスモデルを指定する利点を図示する。
論文 参考訳(メタデータ) (2020-09-18T12:57:17Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。