論文の概要: Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR
Prediction
- arxiv url: http://arxiv.org/abs/2107.14432v5
- Date: Wed, 18 Oct 2023 07:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 21:22:53.138096
- Title: Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR
Prediction
- Title(参考訳): CTR予測におけるSparse Group Lassoを用いたニューラルネットワークの適応最適化
- Authors: Yun Yue, Yongchao Liu, Suo Tong, Minghao Li, Zhen Zhang, Chunyang Wen,
Huanjun Bao, Lihong Gu, Jinjie Gu, Yixiang Mu
- Abstract要約: 深層学習における適応の族にスパース群ラッソの正規化子を追加する新しいフレームワークを開発する。
理論的に凸な設定では,収束保証が確立される。
提案手法は, 極めて優れた性能, 高い競争性能を達成できる。
- 参考スコア(独自算出の注目度): 19.71671771503269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a novel framework that adds the regularizers of the sparse group
lasso to a family of adaptive optimizers in deep learning, such as Momentum,
Adagrad, Adam, AMSGrad, AdaHessian, and create a new class of optimizers, which
are named Group Momentum, Group Adagrad, Group Adam, Group AMSGrad and Group
AdaHessian, etc., accordingly. We establish theoretically proven convergence
guarantees in the stochastic convex settings, based on primal-dual methods. We
evaluate the regularized effect of our new optimizers on three large-scale
real-world ad click datasets with state-of-the-art deep learning models. The
experimental results reveal that compared with the original optimizers with the
post-processing procedure which uses the magnitude pruning method, the
performance of the models can be significantly improved on the same sparsity
level. Furthermore, in comparison to the cases without magnitude pruning, our
methods can achieve extremely high sparsity with significantly better or highly
competitive performance. The code is available at
https://github.com/intelligent-machine-learning/dlrover/blob/master/tfplus.
- Abstract(参考訳): 我々は,momentum,adagrad,adam,amsgrad,adahessianなど,ディープラーニングにおける適応オプティマイザ群にsparse group lassoのレギュラライザを追加する新しいフレームワークを開発し,それに従ってgroup momentum,group adagrad,group adam,group amsgrad,group adahessianなどと呼ばれる新しいクラスのオプティマイザを作成する。
原始双対法に基づく確率凸設定において理論的に証明された収束保証を確立する。
我々は,最先端のディープラーニングモデルを用いた3つの大規模実世界広告クリックデータセットにおける新しいオプティマイザの正規化効果を評価する。
実験結果から, 初期最適化手法と大切削方式を用いた後処理法を比較すると, モデルの性能は同一の空間レベルで有意に向上できることがわかった。
さらに, ダイオードプルーニングを伴わない場合と比較して, 提案手法は極めて高いスパルシティーを達成でき, 優れた性能, 高い競合性能が得られる。
コードはhttps://github.com/intelligent-machine-learning/dlrover/blob/master/tfplusで入手できる。
関連論文リスト
- Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis [0.7428236410246183]
無線信号の自動変調分類(AMC)のための最適化畳み込みニューラルネットワーク(CNN)について検討した。
本稿では,これらの手法を組み合わせて最適化モデルを提案する。
実験結果から,提案手法と組み合わせ最適化手法は,複雑度が著しく低いモデルの開発に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-11T06:08:23Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Soft Merging: A Flexible and Robust Soft Model Merging Approach for
Enhanced Neural Network Performance [6.599368083393398]
グラディエント(SGD)はしばしばモデル性能を改善するために局所最適化を収束させることに制限される。
エム・ソフト・マージング法は、望ましくない結果で得られた局所最適モデルを最小化する。
実験は、統合されたネットワークの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-21T17:07:31Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector [156.43671738038657]
本稿では,GCoNet+と呼ばれる新しいグループ協調学習ネットワークを提案する。
GCoNet+は自然界における共存対象を効果的かつ効率的に識別することができる。
論文 参考訳(メタデータ) (2022-05-30T23:49:19Z) - Adaptive Optimization with Examplewise Gradients [23.504973357538418]
本稿では,機械学習のための勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。
この新しいフレームワークでは、イテレーションは単一の見積もりではなく、パラメータごとの見積もりのバッチへのアクセスを前提としています。
これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。
論文 参考訳(メタデータ) (2021-11-30T23:37:01Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - An Efficient Framework for Clustered Federated Learning [26.24231986590374]
本稿では,ユーザがクラスタに分散するフェデレーション学習(FL)の問題に対処する。
反復フェデレーションクラスタリングアルゴリズム(IFCA)を提案する。
ニューラルネットワークのような非分割問題では,アルゴリズムが効率的であることを示す。
論文 参考訳(メタデータ) (2020-06-07T08:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。