論文の概要: Understanding Embedding Scaling in Collaborative Filtering
- arxiv url: http://arxiv.org/abs/2509.15709v1
- Date: Fri, 19 Sep 2025 07:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.054951
- Title: Understanding Embedding Scaling in Collaborative Filtering
- Title(参考訳): 協調フィルタリングにおける埋め込みスケーリングの理解
- Authors: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang,
- Abstract要約: 10のデータセットにわたる大規模な実験を、さまざまな範囲のレベルとスケールで実施しています。
二重ピークと対数という2つの現象を観察する。
二重ピーク現象の根本原因について理解を深める。
- 参考スコア(独自算出の注目度): 12.697534582500323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling recommendation models into large recommendation models has become one of the most widely discussed topics. Recent efforts focus on components beyond the scaling embedding dimension, as it is believed that scaling embedding may lead to performance degradation. Although there have been some initial observations on embedding, the root cause of their non-scalability remains unclear. Moreover, whether performance degradation occurs across different types of models and datasets is still an unexplored area. Regarding the effect of embedding dimensions on performance, we conduct large-scale experiments across 10 datasets with varying sparsity levels and scales, using 4 representative classical architectures. We surprisingly observe two novel phenomenon: double-peak and logarithmic. For the former, as the embedding dimension increases, performance first improves, then declines, rises again, and eventually drops. For the latter, it exhibits a perfect logarithmic curve. Our contributions are threefold. First, we discover two novel phenomena when scaling collaborative filtering models. Second, we gain an understanding of the underlying causes of the double-peak phenomenon. Lastly, we theoretically analyze the noise robustness of collaborative filtering models, with results matching empirical observations.
- Abstract(参考訳): 大規模なレコメンデーションモデルにレコメンデーションモデルをスケールすることは、最も広く議論されているトピックの1つになっている。
最近の取り組みは、組み込みのスケーリング以外のコンポーネントに焦点を当てている。
埋め込みに関する初期の観測はいくつかあったが、その非スケーリング性の根本原因はいまだ不明である。
さらに、異なるタイプのモデルやデータセットでパフォーマンス劣化が発生するかどうかは、まだ未調査の領域である。
組込み寸法が性能に与える影響について,4つの代表的古典的アーキテクチャを用いて,空間レベルとスケールの異なる10データセットにわたる大規模実験を行った。
二重ピークと対数という2つの新しい現象を驚くほど観察する。
前者にとって、埋め込み次元が大きくなると、まずパフォーマンスが向上し、次に低下し、再び上昇し、最終的には低下する。
後者の場合、完全な対数曲線を示す。
私たちの貢献は3倍です。
まず、協調フィルタリングモデルのスケーリングにおいて、2つの新しい現象を発見する。
第2に、二重ピーク現象の根本原因について理解を深める。
最後に,協調フィルタリングモデルのノイズロバスト性を理論的に解析し,経験的観測と一致する結果を得た。
関連論文リスト
- Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank [50.9530591265324]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。
理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。
また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文 参考訳(メタデータ) (2025-06-25T14:47:43Z) - MixRec: Heterogeneous Graph Collaborative Filtering [21.96510707666373]
そこで本稿では,MixRecを用いたグラフ協調フィルタリングモデルを提案する。
本モデルでは,意図的不整合とマルチビヘイビア・モデリングを取り入れてこれを実現している。
また、自己教師付きデータ拡張の利点を適応的に探求する、新しいコントラスト学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-18T13:12:36Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - Predicting and Enhancing the Fairness of DNNs with the Curvature of Perceptual Manifolds [44.79535333220044]
近年の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されている。
本研究ではまず,モデルフェアネスを解析するための幾何学的視点を確立し,次いで,一連の幾何学的測度を体系的に提案する。
論文 参考訳(メタデータ) (2023-03-22T04:49:23Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - Amortized Causal Discovery: Learning to Infer Causal Graphs from
Time-Series Data [63.15776078733762]
本稿では,時系列データから因果関係を推定する新しいフレームワークであるAmortized Causal Discoveryを提案する。
本研究では,本手法が変分モデルとして実装され,因果発見性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。