論文の概要: On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective
- arxiv url: http://arxiv.org/abs/2505.11318v1
- Date: Fri, 16 May 2025 14:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.286666
- Title: On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective
- Title(参考訳): 協調フィルタリングにおける軽量化の役割--一般の視点から
- Authors: Donald Loveland, Mingxuan Ju, Tong Zhao, Neil Shah, Danai Koutra,
- Abstract要約: CF (Collaborative Filtering) は, 歴史的ユーザ・イテムインタラクションからの情報を高密度ID埋め込みテーブルにエンコードすることで, 大規模レコメンデーションシステムを実現する。
これらのパイプラインのコアコンポーネントの1つは非常に見過ごされている、と私たちは主張する。
PRISM(Popularity-awaRe Initialization Strategy for Embedd Magnitudes)を提案する。
- 参考スコア(独自算出の注目度): 38.87580457343038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collaborative filtering (CF) enables large-scale recommendation systems by encoding information from historical user-item interactions into dense ID-embedding tables. However, as embedding tables grow, closed-form solutions become impractical, often necessitating the use of mini-batch gradient descent for training. Despite extensive work on designing loss functions to train CF models, we argue that one core component of these pipelines is heavily overlooked: weight decay. Attaining high-performing models typically requires careful tuning of weight decay, regardless of loss, yet its necessity is not well understood. In this work, we question why weight decay is crucial in CF pipelines and how it impacts training. Through theoretical and empirical analysis, we surprisingly uncover that weight decay's primary function is to encode popularity information into the magnitudes of the embedding vectors. Moreover, we find that tuning weight decay acts as a coarse, non-linear knob to influence preference towards popular or unpopular items. Based on these findings, we propose PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes), a straightforward yet effective solution to simplify the training of high-performing CF models. PRISM pre-encodes the popularity information typically learned through weight decay, eliminating its necessity. Our experiments show that PRISM improves performance by up to 4.77% and reduces training times by 38.48%, compared to state-of-the-art training strategies. Additionally, we parameterize PRISM to modulate the initialization strength, offering a cost-effective and meaningful strategy to mitigate popularity bias.
- Abstract(参考訳): CF (Collaborative Filtering) は, 歴史的ユーザ・イテムインタラクションからの情報を高密度ID埋め込みテーブルにエンコードすることで, 大規模レコメンデーションシステムを実現する。
しかし、埋め込みテーブルが成長するにつれて、閉形式解は非現実的になり、しばしば訓練にミニバッチ勾配勾配を使う必要がある。
CFモデルをトレーニングするための損失関数の設計に関する広範な研究にもかかわらず、これらのパイプラインのコアコンポーネントの1つは見過ごされている。
高い性能のモデルを達成するには、一般的に損失にかかわらず、重量の減衰を慎重に調整する必要があるが、その必要性は十分に理解されていない。
本研究では,CFパイプラインにおいて重量減衰が重要である理由と,それがトレーニングに与える影響について考察する。
理論的および経験的分析を通じて、ウェイト崩壊の主要な機能は、人気情報を埋め込みベクトルの大きさにエンコードすることである。
さらに,チューニングウェイト減衰は,人気項目や不人気項目に対する嗜好に影響を及ぼすために,粗い非線形ノブとして機能することがわかった。
これらの知見に基づいて,高パフォーマンスCFモデルのトレーニングを簡素化する,単純かつ効果的な解法であるPRISM(Popularity-awaRe Initialization Strategy for Embedd Magnitudes)を提案する。
PRISMは、一般的に体重減少によって学習される人気情報をプリエンコードし、その必要性を排除している。
実験の結果,PRISMは最先端のトレーニング戦略と比較して最大4.77%向上し,トレーニング時間を38.48%短縮することがわかった。
さらに、PRISMをパラメータ化して初期化強度を調整し、人気バイアスを軽減するための費用対効果と有意義な戦略を提供する。
関連論文リスト
- Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Why Do We Need Weight Decay in Modern Deep Learning? [24.81634291051533]
重崩壊は、画像分類から大規模言語モデルまで、最先端の深層ネットワークを訓練するための技術である。
本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。
マルチパスSGDで訓練された視覚タスクのディープネットワークにおいて、重み劣化がSGDの暗黙の正則化を促進する最適化力学をどのように修正するかを示す。
論文 参考訳(メタデータ) (2023-10-06T17:58:21Z) - FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。
ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文 参考訳(メタデータ) (2021-03-29T05:41:56Z) - On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。
我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文 参考訳(メタデータ) (2020-11-23T00:39:49Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。