論文の概要: Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design
- arxiv url: http://arxiv.org/abs/2602.10016v1
- Date: Tue, 10 Feb 2026 17:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.715037
- Title: Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design
- Title(参考訳): Kunlun: 統一アーキテクチャ設計による大規模レコメンデーションシステムのスケーリング法則の確立
- Authors: Bojian Hou, Xiaolong Liu, Xiaoyi Liu, Jiaqi Xu, Yasmine Badr, Mengyue Hang, Sudhanshu Chanpuriya, Junqing Zhou, Yuhang Yang, Han Xu, Qiuling Suo, Laming Chen, Yuxi Hu, Jiasheng Zhang, Huaqing Xiong, Yuzhen Huang, Chao Chen, Yue Dong, Yi Yang, Shuo Chang, Xiaorui Gan, Wenlin Chen, Santanu Kolay, Darren Liu, Jade Nie, Chunzhi Yang, Jiyan Yang, Huayu Li,
- Abstract要約: モデル効率とリソース割り当てを改善するスケーラブルなアーキテクチャであるKunlunを紹介します。
Kunlunは現在、主要なMeta Adsモデルにデプロイされており、運用上の大きな影響を与えている。
- 参考スコア(独自算出の注目度): 39.56881153682311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deriving predictable scaling laws that govern the relationship between model performance and computational investment is crucial for designing and allocating resources in massive-scale recommendation systems. While such laws are established for large language models, they remain challenging for recommendation systems, especially those processing both user history and context features. We identify poor scaling efficiency as the main barrier to predictable power-law scaling, stemming from inefficient modules with low Model FLOPs Utilization (MFU) and suboptimal resource allocation. We introduce Kunlun, a scalable architecture that systematically improves model efficiency and resource allocation. Our low-level optimizations include Generalized Dot-Product Attention (GDPA), Hierarchical Seed Pooling (HSP), and Sliding Window Attention. Our high-level innovations feature Computation Skip (CompSkip) and Event-level Personalization. These advances increase MFU from 17% to 37% on NVIDIA B200 GPUs and double scaling efficiency over state-of-the-art methods. Kunlun is now deployed in major Meta Ads models, delivering significant production impact.
- Abstract(参考訳): 大規模レコメンデーションシステムにおいて、モデル性能と計算投資の関係を規定する予測可能なスケーリング法則の導出は、資源の設計と割り当てに不可欠である。
このような法則は大規模言語モデルに対して確立されているが、推奨システム、特にユーザ履歴とコンテキストの特徴の両方を処理するシステムには依然として課題がある。
我々は,モデルFLOP(MFU)の低い非効率モジュールと,リソース割り当てが最適でないことに起因する,予測可能なパワーロースケーリングの主要な障壁として,スケーリング効率が低いことを確認した。
モデル効率とリソース割り当てを体系的に改善するスケーラブルなアーキテクチャであるKunlunを紹介します。
当社の低レベル最適化には、Generalized Dot-Product Attention (GDPA), Hierarchical Seed Pooling (HSP), Sliding Window Attentionなどがあります。
私たちのハイレベルなイノベーションには、Computation Skip(CompSkip)とイベントレベルのパーソナライゼーションがあります。
これらの進歩により、NVIDIA B200 GPU上ではMFUが17%から37%に増加し、最先端のメソッドよりもスケーリング効率が2倍になった。
Kunlunは現在、主要なMeta Adsモデルにデプロイされており、運用上の大きな影響を与えている。
関連論文リスト
- Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、専門的な深層モデルから汎用的な基礎モデルへと進化してきた。
LLMは、ローカルデータセットの微調整と、ネットワークエッジ上のデプロイメントのためのかなりのメモリを必要とする。
LLMは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために、テキスト生成を超えて拡張されている。
LLMの持続的成長を支援するため,モデル微調整およびモデル圧縮技術が開発されている。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale [11.121380180647769]
本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。
また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。
これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-26T16:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。