Fugu-MT 論文翻訳(概要): Wukong: Towards a Scaling Law for Large-Scale Recommendation

論文の概要: Wukong: Towards a Scaling Law for Large-Scale Recommendation

arxiv url: http://arxiv.org/abs/2403.02545v1
Date: Mon, 4 Mar 2024 23:40:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:38:11.488817
Title: Wukong: Towards a Scaling Law for Large-Scale Recommendation
Title（参考訳）: Wukong: 大規模勧告のスケーリング法を目指して
Authors: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
Abstract要約: スケーリング法則はモデル品質の持続的な改善に重要な役割を果たしている。現在までの勧告モデルは、大きな言語モデルの領域で見られるような法則を示さない。本稿では,階層化された因子化マシンをベースとした効率的なネットワークアーキテクチャと,Wukongと呼ばれる相乗的アップスケーリング戦略を提案する。
参考スコア（独自算出の注目度）: 19.562294474032843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior arts fall short.
Abstract（参考訳）: スケーリング法則はモデル品質の持続可能な改善に重要な役割を果たしている。残念ながら、これまでのレコメンデーションモデルは、大規模言語モデルの領域で見られるような法則を示さない。この制限は、これらのモデルをより複雑な現実世界のデータセットに適応させる上で大きな課題となる。本稿では,階層化された因子化マシンをベースとした効率的なネットワークアーキテクチャと,Wukongと呼ばれる相乗的アップスケーリング戦略を提案し,推薦領域におけるスケーリング法則を確立する。 Wukongのユニークなデザインは、より高層で広い層を通して、多様な、あらゆる順序の相互作用を捉えることができる。我々は,6つの公開データセットに対して広範な評価を行い,その結果から,Wukongが常に最先端のモデルよりも品質的に優れていることを示した。さらに、内部の大規模データセット上でWukongのスケーラビリティを評価した。その結果,Wukongは,100Gflopを超える2桁のスケール法則を保ちながら,先行技術が不足するGPT-3/LLaMa-2スケールのトレーニング計算に匹敵する,最先端モデルよりも品質が優れていることがわかった。

関連論文リスト

SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
Synthetic Feature Augmentation Improves Generalization Performance of Language Models [8.463273762997398]
限定的かつ不均衡なデータセット上でのトレーニングと微調整のディープラーニングモデルは、重大な課題を生じさせる。本研究では, 様々な手法を用いて合成試料を合成することにより, 埋め込み空間における特徴量を増やすことを提案する。複数のオープンソーステキスト分類ベンチマークにまたがって,このアプローチの有効性を検証する。
論文参考訳（メタデータ） (2025-01-11T04:31:18Z)
Dissecting Bit-Level Scaling Laws in Quantizing Vision Generative Models [13.937690707239177]
言語型モデルは様々な量子化設定において拡散型モデルより一貫して優れていることを示す。この観察は、言語スタイルのモデルは、ビットレベルのスケーリング法則が優れていることを示唆し、モデルの品質とトータルビットとのトレードオフをより良くする。蒸留プロセスにおける「暗黙的知識」と「明示的知識」のバランスをとることにより、蒸留知識の伝達を最適化するTopKLDを提案する。
論文参考訳（メタデータ） (2025-01-06T14:23:07Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Scaling Laws for Pre-training Agents and World Models [22.701210075508147]
エンボディエージェントの性能は、モデルパラメータ、データセットサイズ、計算量を増やして改善されている。本稿では,これらの課題におけるスケールの役割を,より正確に評価する。
論文参考訳（メタデータ） (2024-11-07T04:57:40Z)
Towards Neural Scaling Laws for Time Series Foundation Models [63.5211738245487]
我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文参考訳（メタデータ） (2024-10-16T08:23:39Z)
Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文参考訳（メタデータ） (2024-02-28T17:36:45Z)
Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文参考訳（メタデータ） (2024-02-13T17:18:56Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文参考訳（メタデータ） (2023-12-27T11:49:24Z)
Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文参考訳（メタデータ） (2023-07-05T15:32:21Z)
Exploring the Effects of Data Augmentation for Drivable Area Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文参考訳（メタデータ） (2022-08-06T03:39:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。