論文の概要: Hierarchical LoRA MoE for Efficient CTR Model Scaling
- arxiv url: http://arxiv.org/abs/2510.10432v1
- Date: Sun, 12 Oct 2025 03:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.935432
- Title: Hierarchical LoRA MoE for Efficient CTR Model Scaling
- Title(参考訳): 効率的なCTRモデルスケーリングのための階層型LoRA MoE
- Authors: Zhichen Zeng, Mengyue Hang, Xiaolong Liu, Xiaoyi Liu, Xiao Lin, Ruizhong Qiu, Tianxin Wei, Zhining Liu, Siyang Yuan, Chaofei Yang, Yiqun Liu, Hang Yin, Jiyan Yang, Hanghang Tong,
- Abstract要約: HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
- 参考スコア(独自算出の注目度): 56.608809143548946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep models have driven significant advances in click-through rate (CTR) prediction. While vertical scaling via layer stacking improves model expressiveness, the layer-by-layer sequential computation poses challenges to efficient scaling. Conversely, horizontal scaling through Mixture of Experts (MoE) achieves efficient scaling by activating a small subset of experts in parallel, but flat MoE layers may struggle to capture the hierarchical structure inherent in recommendation tasks. To push the Return-On-Investment (ROI) boundary, we explore the complementary strengths of both directions and propose HiLoMoE, a hierarchical LoRA MoE framework that enables holistic scaling in a parameter-efficient manner. Specifically, HiLoMoE employs lightweight rank-1 experts for parameter-efficient horizontal scaling, and stacks multiple MoE layers with hierarchical routing to enable combinatorially diverse expert compositions. Unlike conventional stacking, HiLoMoE routes based on prior layer scores rather than outputs, allowing all layers to execute in parallel. A principled three-stage training framework ensures stable optimization and expert diversity. Experiments on four public datasets show that HiLoMoE achieving better performance-efficiency tradeoff, achieving an average AUC improvement of 0.20\% in AUC and 18.5\% reduction in FLOPs compared to the non-MoE baseline.
- Abstract(参考訳): ディープモデルはクリックスルー率(CTR)の予測に大きな進歩をもたらした。
層積み重ねによる垂直スケーリングはモデル表現性を向上する一方、層ごとの逐次計算は効率的なスケーリングに挑戦する。
逆に、Mixture of Experts (MoE)による水平スケーリングは、専門家の小さなサブセットを並列に活性化することで、効率的なスケーリングを実現するが、フラットなMoE層はレコメンデーションタスクに固有の階層構造を捉えるのに苦労する可能性がある。
ROI(Return-On-Investment)境界を推し進めるために、両方向の相補的な強みを探求し、パラメータ効率のよい全体的なスケーリングを可能にする階層型LoRA MoEフレームワークであるHiLoMoEを提案する。
具体的には、HiLoMoEはパラメータ効率のよい水平スケーリングのために軽量なランク1の専門家を採用し、階層的なルーティングで複数のMoE層を積み重ねることで、組合せ的に多様な専門家構成を可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
原則化された3段階のトレーニングフレームワークは、安定した最適化と専門家の多様性を保証する。
4つの公開データセットでの実験では、HiLoMoEはパフォーマンスと効率のトレードオフを向上し、AUCでは平均0.20\%、FLOPでは18.5\%の改善を達成した。
関連論文リスト
- LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts [24.0422448103907]
LD-MoLEはLearningable Dynamic routing mechanism for Mixture of LoRA Expertsを提案する。
我々の設計では、異なる層で各トークンに対してアクティベートする専門家の数を適応的に決定できる。
提案手法は,優れた性能を実現するとともに,トークン依存型およびレイヤワイドのエキスパートアロケーションを学習する能力も示す。
論文 参考訳(メタデータ) (2025-09-30T02:38:10Z) - Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression [14.086434595924716]
Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
論文 参考訳(メタデータ) (2025-09-27T10:45:58Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z) - DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMs [46.443316184807145]
変換器をベースとした大規模言語モデル(LLM)を垂直スケールする新しいアプローチである動的層演算(DLO)を導入する。
モデル幅の拡張に重点を置く従来のMixture-of-Experts(MoE)手法とは異なり,本手法はモデル深度を対象とし,様々な入力サンプルに対して層表現間で観測される冗長性に対処する。
実験結果から、DLOは元の非スケールモデルよりも優れるだけでなく、効率が大幅に向上した密に拡張されたモデルに匹敵する結果が得られることが示された。
論文 参考訳(メタデータ) (2024-07-03T18:34:08Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Higher Layers Need More LoRA Experts [23.72297945365351]
トランスフォーマーモデルのための新しいパラメータ効率MoE法であるtextittextbfMoE-LtextbfoRA と textbfLayer-wise Expert textbfAllocation (MoLA) を導入する。
6つのよく知られたNLPおよびCommonsense QAベンチマークの実験は、MoLAがすべてのベースラインと同等または優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-02-13T16:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。