論文の概要: Enhancing CTR Prediction with De-correlated Expert Networks
- arxiv url: http://arxiv.org/abs/2505.17925v1
- Date: Fri, 23 May 2025 14:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.133872
- Title: Enhancing CTR Prediction with De-correlated Expert Networks
- Title(参考訳): De-correlated Expert NetworksによるCTR予測の強化
- Authors: Jiancheng Wang, Mingjia Yin, Junwei Pan, Ximei Wang, Hao Wang, Enhong Chen,
- Abstract要約: 本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・
D-MoEの有効性とデコリレーション原理を検証するために大規模な実験が行われた。
- 参考スコア(独自算出の注目度): 53.05653547330796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling feature interactions is essential for accurate click-through rate (CTR) prediction in advertising systems. Recent studies have adopted the Mixture-of-Experts (MoE) approach to improve performance by ensembling multiple feature interaction experts. These studies employ various strategies, such as learning independent embedding tables for each expert or utilizing heterogeneous expert architectures, to differentiate the experts, which we refer to expert \emph{de-correlation}. However, it remains unclear whether these strategies effectively achieve de-correlated experts. To address this, we propose a De-Correlated MoE (D-MoE) framework, which introduces a Cross-Expert De-Correlation loss to minimize expert correlations.Additionally, we propose a novel metric, termed Cross-Expert Correlation, to quantitatively evaluate the expert de-correlation degree. Based on this metric, we identify a key finding for MoE framework design: \emph{different de-correlation strategies are mutually compatible, and progressively employing them leads to reduced correlation and enhanced performance}.Extensive experiments have been conducted to validate the effectiveness of D-MoE and the de-correlation principle. Moreover, online A/B testing on Tencent's advertising platforms demonstrates that D-MoE achieves a significant 1.19\% Gross Merchandise Volume (GMV) lift compared to the Multi-Embedding MoE baseline.
- Abstract(参考訳): 広告システムにおける正確なクリックスルー率(CTR)予測には,機能相互作用のモデル化が不可欠である。
近年,Mixture-of-Experts (MoE) アプローチが採用され,複数の機能インタラクションの専門家を集結させ,パフォーマンスの向上が図られている。
これらの研究は、専門家ごとに独立した埋め込み表を学習したり、異種の専門家アーキテクチャを利用したりといった様々な戦略を用いて、専門家を区別する。
しかし、これらの戦略が非関連の専門家を効果的に達成するかどうかは不明である。
そこで本研究では,専門家の相関を最小化するため,クロスエキスパート・デコリレーションの損失を最小化するDe-Correlated MoE(D-MoE)フレームワークを提案し,また,専門家の相関度を定量的に評価する新たな指標であるクロス専門家相関(Cross-Expert correlation)を提案する。
この指標に基づいて,MoEフレームワークの設計における重要な発見点を同定する: \emph{different de-correlation strategy is mutually compatible, and progressively use them to reduce correlation and enhanced performance}。
D-MoEの有効性とデコリレーション原理を検証するために大規模な実験が行われた。
さらに、Tencentの広告プラットフォーム上でのオンラインA/Bテストでは、D-MoEがMulti-Embedding MoEベースラインと比較して1.19\%のGross Merchandise Volume (GMV)リフトを達成したことが示されている。
関連論文リスト
- CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning [5.161314094237747]
我々は,MoEのモジュール化と特殊化を促進するために,MoE(CoMoE)のコントラスト表現を提案する。
いくつかのベンチマークやマルチタスク環境での実験では、CoMoEはMoEのキャパシティを継続的に向上し、専門家間のモジュール化を促進することができる。
論文 参考訳(メタデータ) (2025-05-23T06:58:44Z) - ExpertRAG: Efficient RAG with Mixture of Experts -- Optimizing Context Retrieval for Adaptive LLM Responses [0.0]
ExpertRAGは、Mixture-of-Experts (MoE)アーキテクチャとRetrieval Augmented Generation (RAG)を統合する新しい理論フレームワークである
本稿では,エキスパートルーティングと組み合わせた動的検索ゲーティング機構を提案し,モデルが外部知識ストアを選択的に参照したり,専門的な内部エキスパートに依存したりすることを可能にする。
本稿では,選択検索による計算コストの削減と,スパース専門家の利用によるキャパシティゲインの定量化を行う。
論文 参考訳(メタデータ) (2025-03-23T17:26:23Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。