論文の概要: Adaptive Regularization for Large-Scale Sparse Feature Embedding Models
- arxiv url: http://arxiv.org/abs/2511.06374v1
- Date: Sun, 09 Nov 2025 13:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.909788
- Title: Adaptive Regularization for Large-Scale Sparse Feature Embedding Models
- Title(参考訳): 大規模スパース特徴埋め込みモデルに対する適応正規化
- Authors: Mang Li, Wei Lyu,
- Abstract要約: 我々は,大規模なスパースカテゴリー特徴を用いたモデルに過剰適合が生じている理由を理論的に分析する。
提案手法は,マルチエポックトレーニング中に観察される厳格な性能劣化を防止できるだけでなく,一つのエポック内でのモデル性能を向上させる。
- 参考スコア(独自算出の注目度): 1.0563630622294078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The one-epoch overfitting problem has drawn widespread attention, especially in CTR and CVR estimation models in search, advertising, and recommendation domains. These models which rely heavily on large-scale sparse categorical features, often suffer a significant decline in performance when trained for multiple epochs. Although recent studies have proposed heuristic solutions, they have not clearly identified the fundamental cause of this phenomenon. In this work, we provide a theoretical analysis that explains why overfitting occurs in models that use large-scale sparse categorical features. Based on this analysis, we propose an adaptive regularization method to address it. Our approach not only prevents the severe performance degradation observed during multi-epoch training, but also improves model performance within a single epoch. This method has already been deployed in online production systems.
- Abstract(参考訳): 特に検索,広告,レコメンデーションドメインにおけるCTRおよびCVR推定モデルにおいて,この1世紀オーバーフィッティング問題に注目が集まっている。
大規模なスパース分類に大きく依存するこれらのモデルは、複数のエポックで訓練された場合、性能が著しく低下することが多い。
近年の研究でヒューリスティックな解法が提案されているが、この現象の根本的な原因は明らかになっていない。
本研究では,大規模なスパースカテゴリー特徴を用いたモデルに過剰適合が生じている理由を理論的に解析する。
そこで本研究では,適応正規化手法を提案する。
提案手法は,マルチエポックトレーニング中に観察される厳格な性能劣化を防止できるだけでなく,一つのエポック内でのモデル性能を向上させる。
この方法は、既にオンライン生産システムにデプロイされている。
関連論文リスト
- Characteristic Root Analysis and Regularization for Linear Time Series Forecasting [9.254995889539716]
時系列予測は多くの領域において重要な課題である。
近年の研究では、単純な線形モデルの驚くほどの競争性が強調されている。
本稿では時間力学における特性根の役割に焦点を当てる。
論文 参考訳(メタデータ) (2025-09-28T03:06:30Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Salvaging the Overlooked: Leveraging Class-Aware Contrastive Learning for Multi-Class Anomaly Detection [18.797864512898787]
異常検出では、初期のアプローチは個々のクラスの別々のモデルを訓練し、高いパフォーマンスを得るが、スケーラビリティとリソース管理の課題を提起する。
本研究は, 階層間混乱を解消する手法として, 再構築手法で観測されたこの性能について検討する。
この混乱は、マルチクラスのシナリオで訓練されたモデルが、あるクラスのサンプルを別のクラスとして誤って再構成すると、再構成エラーが悪化する。
原対象のカテゴリ情報(例えばカーペットや木)を明示的に活用することにより、局所CLを導入し、マルチスケールの高密度特徴を洗練させ、グローバルCLを導入し、通常のパターンのよりコンパクトな特徴表現を得ることにより、モデルをマルチクラスに効果的に適応させる。
論文 参考訳(メタデータ) (2024-12-06T04:31:09Z) - ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。
モデルは異なるデータセットで異なる表現を学習する。
適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文 参考訳(メタデータ) (2024-12-02T13:21:31Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Predicting and Enhancing the Fairness of DNNs with the Curvature of Perceptual Manifolds [44.79535333220044]
近年の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されている。
本研究ではまず,モデルフェアネスを解析するための幾何学的視点を確立し,次いで,一連の幾何学的測度を体系的に提案する。
論文 参考訳(メタデータ) (2023-03-22T04:49:23Z) - Towards Understanding the Overfitting Phenomenon of Deep Click-Through
Rate Prediction Models [16.984947259260878]
我々は,Click-Through Rate (CTR) 予測において,興味深い一時期オーバーフィッティング問題を観測した。
モデル性能は、第2のエポックの初めに劇的な劣化を示す。
これにより、最高のパフォーマンスは通常、1つのエポックでトレーニングすることで達成される。
論文 参考訳(メタデータ) (2022-09-04T11:36:16Z) - Consistent Counterfactuals for Deep Models [25.1271020453651]
ファクトファクトの例は、金融や医療診断といった重要な領域における機械学習モデルの予測を説明するために使用される。
本稿では,初期訓練条件に小さな変更を加えた深層ネットワークにおける実例に対するモデル予測の整合性について検討する。
論文 参考訳(メタデータ) (2021-10-06T23:48:55Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。