論文の概要: Multi-Epoch Learning for Deep Click-Through Rate Prediction Models
- arxiv url: http://arxiv.org/abs/2305.19531v1
- Date: Wed, 31 May 2023 03:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:37:27.764392
- Title: Multi-Epoch Learning for Deep Click-Through Rate Prediction Models
- Title(参考訳): クリックスルーレート予測モデルのためのマルチエポック学習
- Authors: Zhaocheng Liu, Zhongxiang Fan, Jian Liang, Dongying Kong, Han Li
- Abstract要約: ワンエポックオーバーフィッティング現象は産業用クリックスルーレート(CTR)の応用で広く観測されている。
本稿では,データ拡張を用いたマルチエポック学習(MEDA)を提案する。
- 参考スコア(独自算出の注目度): 32.80864867251999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The one-epoch overfitting phenomenon has been widely observed in industrial
Click-Through Rate (CTR) applications, where the model performance experiences
a significant degradation at the beginning of the second epoch. Recent advances
try to understand the underlying factors behind this phenomenon through
extensive experiments. However, it is still unknown whether a multi-epoch
training paradigm could achieve better results, as the best performance is
usually achieved by one-epoch training. In this paper, we hypothesize that the
emergence of this phenomenon may be attributed to the susceptibility of the
embedding layer to overfitting, which can stem from the high-dimensional
sparsity of data. To maintain feature sparsity while simultaneously avoiding
overfitting of embeddings, we propose a novel Multi-Epoch learning with Data
Augmentation (MEDA), which can be directly applied to most deep CTR models.
MEDA achieves data augmentation by reinitializing the embedding layer in each
epoch, thereby avoiding embedding overfitting and simultaneously improving
convergence. To our best knowledge, MEDA is the first multi-epoch training
paradigm designed for deep CTR prediction models. We conduct extensive
experiments on several public datasets, and the effectiveness of our proposed
MEDA is fully verified. Notably, the results show that MEDA can significantly
outperform the conventional one-epoch training. Besides, MEDA has exhibited
significant benefits in a real-world scene on Kuaishou.
- Abstract(参考訳): 産業用クリックスルーレート (CTR) アプリケーションでは, モデル性能が第2のエポックの初めに著しく低下する現象が観察されている。
近年の進歩は、この現象の根底にある要因を広範な実験を通じて理解しようと試みている。
しかし、マルチエポックトレーニングのパラダイムがより良い結果が得られるかどうかは不明であり、最高のパフォーマンスは通常1エポックトレーニングによって達成される。
本稿では, この現象の出現は, 高次元の空間データから得られる, 埋込層から過度適合への感受性に起因する可能性があると仮定する。
埋め込みの過度な適合を同時に回避しながら特徴空間を維持するため,最も深いCTRモデルに直接適用可能な,MEDA(Multi-Epoch Learning with Data Augmentation)を提案する。
MEDAは、各エポックに埋め込み層を再初期化し、埋め込み過適合を回避し、収束を同時に改善することにより、データ拡張を実現する。
私たちの知る限り、MEDAは深部CTR予測モデルのために設計された最初のマルチエポックトレーニングパラダイムです。
いくつかの公開データセットに対して広範な実験を行い,提案手法の有効性を検証した。
特に,MEDAは従来のワンエポックトレーニングよりも優れていた。
また、MEDAはクアイショーの現実世界のシーンで大きな恩恵を受けている。
関連論文リスト
- Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Towards Understanding the Overfitting Phenomenon of Deep Click-Through
Rate Prediction Models [16.984947259260878]
我々は,Click-Through Rate (CTR) 予測において,興味深い一時期オーバーフィッティング問題を観測した。
モデル性能は、第2のエポックの初めに劇的な劣化を示す。
これにより、最高のパフォーマンスは通常、1つのエポックでトレーニングすることで達成される。
論文 参考訳(メタデータ) (2022-09-04T11:36:16Z) - CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge
Distillation [30.56389761245621]
知識蒸留(KD)は、大規模事前学習言語モデルを圧縮するための効率的なフレームワークである。
近年, コントラスト学習, 中間層蒸留, データ拡張, アドミラルトレーニングを活用することで, KDの改善を目指す研究が急増している。
CILDAと呼ばれる知識蒸留に適した学習ベースデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T23:16:37Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。