論文の概要: From Collapse to Stability: A Knowledge-Driven Ensemble Framework for Scaling Up Click-Through Rate Prediction Models
- arxiv url: http://arxiv.org/abs/2411.16122v2
- Date: Fri, 20 Jun 2025 07:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.722803
- Title: From Collapse to Stability: A Knowledge-Driven Ensemble Framework for Scaling Up Click-Through Rate Prediction Models
- Title(参考訳): 崩壊から安定へ:クリックスルーレート予測モデルをスケールアップするための知識駆動型アンサンブルフレームワーク
- Authors: Honghao Li, Lei Sang, Yi Zhang, Guangming Cui, Yiwen Zhang,
- Abstract要約: 本研究では,より大規模なアンサンブルネットワークを調査し,一般的なアンサンブル手法に特有の3つの制約を見出す。
知識蒸留(KD)と深層相互学習(DML)はこれらの制限に対処するために用いられる。
DMLはサブネットワーク間のばらつきを減らし、アンサンブル予測による不一致を最小限に抑えながら、KDによりCTRモデルのスケーリング法則に従うことができる。
- 参考スコア(独自算出の注目度): 10.32061722615977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Click-through rate (CTR) prediction plays a crucial role in modern recommender systems. While many existing methods utilize ensemble networks to improve CTR model performance, they typically restrict the ensemble to only two or three sub-networks. Whether increasing the number of sub-networks consistently enhances CTR model performance to align with scaling laws remains unclear. In this paper, we investigate larger ensemble networks and find three inherent limitations in commonly used ensemble methods: (1) performance degradation as the number of sub-networks increases; (2) sharp declines and high variance in sub-network performance; and (3) significant discrepancies between sub-network and ensemble predictions. Meanwhile, we analyze the underlying causes of these limitations from the perspective of dimensional collapse: the collapse within sub-networks becomes increasingly severe as the number of sub-networks grows, leading to a lower knowledge abundance. In this paper, we employ knowledge transfer methods, such as Knowledge Distillation (KD) and Deep Mutual Learning (DML), to address the aforementioned limitations. We find that KD enables CTR models to better follow scaling laws, while DML reduces variance among sub-networks and minimizes discrepancies with ensemble predictions. Furthermore, by combining KD and DML, we propose a model-agnostic and hyperparameter-free Knowledge-Driven Ensemble Framework (KDEF) for CTR Prediction.
- Abstract(参考訳): クリックスルー率(CTR)予測は、現代のレコメンデータシステムにおいて重要な役割を果たす。
既存の多くの手法では、CTRモデルの性能を改善するためにアンサンブルネットワークを使用しているが、通常はアンサンブルを2つまたは3つのサブネットワークに制限している。
サブネットワークの数を増やすことでCTRモデルの性能が拡張され、スケーリング法則に適合するかどうかは不明だ。
本稿では,より大規模なアンサンブルネットワークを調査し,(1)サブネットワーク数の増加に伴う性能劣化,(2)サブネットワーク性能の急激な低下と高分散,(3)サブネットワークとアンサンブル予測の重大な相違,という,一般的なアンサンブル手法に特有の3つの制約を見出す。
一方、これらの制限の根底にある原因は次元的崩壊の観点から分析し、サブネットワーク内の崩壊は、サブネットワークの数が増加するにつれてますます深刻になり、知識の不足につながる。
本稿では,上記の制約に対処するため,知識蒸留(KD)や深層相互学習(DML)などの知識伝達手法を用いる。
DMLはサブネットワーク間のばらつきを減らし、アンサンブル予測による不一致を最小限に抑えながら、KDによりCTRモデルのスケーリング法則に従うことができる。
さらに,KDとDMLを組み合わせることで,CTR予測のためのモデル非依存かつハイパーパラメータフリーな知識駆動型アンサンブルフレームワーク(KDEF)を提案する。
関連論文リスト
- Feature Interaction Fusion Self-Distillation Network For CTR Prediction [14.12775753361368]
CTR(Click-Through Rate)予測は、レコメンデーターシステム、オンライン広告、検索エンジンにおいて重要な役割を果たす。
プラグ・アンド・プレイ融合自己蒸留モジュールを組み込んだCTR予測フレームワークであるFSDNetを提案する。
論文 参考訳(メタデータ) (2024-11-12T03:05:03Z) - Leveraging Different Learning Styles for Improved Knowledge Distillation
in Biomedical Imaging [0.9208007322096533]
我々の研究は知識多様化の概念を活用して、知識蒸留(KD)や相互学習(ML)といったモデル圧縮技術の性能を向上させる。
我々は,教師から学生(KD)への知識伝達を可能にすると同時に,学生(ML)間の協調学習を促進する統一的な枠組みで,一教師と二学生のネットワークを利用する。
教師が学生ネットワークと予測や特徴表現の形で同じ知識を共有する従来の手法とは異なり,提案手法では,教師の予測と特徴マップの学習により,より多様化した戦略を採用する。
論文 参考訳(メタデータ) (2022-12-06T12:40:45Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - LENAS: Learning-based Neural Architecture Search and Ensemble for 3D Radiotherapy Dose Prediction [42.38793195337463]
本稿では3次元放射線治療線量予測のための知識蒸留とニューラルネットワーク検索を統合した,学習に基づく新しいアンサンブル手法 LENAS を提案する。
当社のアプローチは、巨大なアーキテクチャ空間から各ブロックを徹底的に検索して、有望なパフォーマンスを示す複数のアーキテクチャを識別することから始まります。
モデルアンサンブルによってもたらされる複雑さを軽減するため、教師-学生パラダイムを採用し、複数の学習ネットワークからの多様な出力を監視信号として活用する。
論文 参考訳(メタデータ) (2021-06-12T10:08:52Z) - LANA: Towards Personalized Deep Knowledge Tracing Through
Distinguishable Interactive Sequences [21.67751919579854]
今後の質問に対する学生の回答を予測するために、Leveled Attentive KNowledge TrAcing(LANA)を提案します。
新しい学生関連特徴抽出装置(SRFE)を使用して、学生固有の特性をそれぞれのインタラクティブシーケンスから蒸留します。
ピボットモジュールは、個々の学生のためのデコーダを再構築し、グループのためのレベル付き学習特化エンコーダにより、パーソナライズされたDKTを実現した。
論文 参考訳(メタデータ) (2021-04-21T02:57:42Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - BCFNet: A Balanced Collaborative Filtering Network with Attention
Mechanism [106.43103176833371]
協調フィルタリング(CF)ベースの推奨方法が広く研究されている。
BCFNet(Balanced Collaborative Filtering Network)という新しい推薦モデルを提案する。
さらに注意機構は、暗黙のフィードバックの中で隠れた情報をよりよく捉え、ニューラルネットワークの学習能力を強化するように設計されている。
論文 参考訳(メタデータ) (2021-03-10T14:59:23Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。