Fugu-MT 論文翻訳(概要): MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity

論文の概要: MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity

arxiv url: http://arxiv.org/abs/2411.09425v1
Date: Thu, 14 Nov 2024 13:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.698525
Title: MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity
Title（参考訳）: MARM: メモリ拡張と拡張性による推奨システムの今後の展開
Authors: Xiao Lv, Jiangxia Cao, Shijie Guan, Xiaoyou Zhou, Zhiguang Qi, Yaqiang Zang, Ming Li, Ben Wang, Kun Gai, Guorui Zhou,
Abstract要約: MARM(Memory Augmented Recommendation Model)を提案する。 RecSysモデルの場合、モデルパラメータと比較して計算複雑性のFLOPは、注意深い制御を必要とするより高価な要素である。
参考スコア（独自算出の注目度）: 18.865266475439135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling-law has guided the language model designing for past years, however, it is worth noting that the scaling laws of NLP cannot be directly applied to RecSys due to the following reasons: (1) The amount of training samples and model parameters is typically not the bottleneck for the model. Our recommendation system can generate over 50 billion user samples daily, and such a massive amount of training data can easily allow our model parameters to exceed 200 billion, surpassing many LLMs (about 100B). (2) To ensure the stability and robustness of the recommendation system, it is essential to control computational complexity FLOPs carefully. Considering the above differences with LLM, we can draw a conclusion that: for a RecSys model, compared to model parameters, the computational complexity FLOPs is a more expensive factor that requires careful control. In this paper, we propose our milestone work, MARM (Memory Augmented Recommendation Model), which explores a new cache scaling-laws successfully.
Abstract（参考訳）: しかし,NLPのスケーリング法則がRecSysに直接適用できないのは,(1) トレーニングサンプルの量とモデルのパラメータがモデルにとってボトルネックではないためである。私たちのレコメンデーションシステムは毎日500億以上のユーザサンプルを生成することができ、このような大量のトレーニングデータにより、モデルパラメータが200億を超え、多くのLLM(約100B)を超えることができる。 2)レコメンデーションシステムの安定性と堅牢性を確保するためには,計算複雑性FLOPを慎重に制御することが不可欠である。上記の LLM との相違を考えると、RecSys モデルでは、モデルパラメータと比較して計算複雑性 FLOP は、注意深い制御を必要とするより高価な要素である。本稿では,新たなキャッシュスケーリング法則を探求するマイルストーンであるMARM(Memory Augmented Recommendation Model)を提案する。

関連論文リスト

FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文参考訳（メタデータ） (2024-12-17T14:33:05Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文参考訳（メタデータ） (2024-04-09T15:36:50Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [46.997172696192195]
本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
論文参考訳（メタデータ） (2024-02-22T18:58:55Z)
Induced Model Matching: How Restricted Models Can Help Larger Ones [1.7676816383911753]
制限された特徴を用いた非常に正確な予測モデルが、より大きく、フル機能の、モデルのトレーニング時に利用可能であるシナリオを考察する。制限されたモデルは、フルモデルにどのように役立つのか? 本稿では,制約モデルと制約モデルの性能を一致させることで,制約モデルの知識をフルモデルに伝達する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T20:21:09Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
Revisiting minimum description length complexity in overparameterized models [38.21167656112762]
本稿では,線形モデルとカーネル手法に対するMDL-COMPの広範な理論的特性について述べる。カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。また、MDL-COMPがサンプル内平均二乗誤差(MSE)を束縛していることも証明する。
論文参考訳（メタデータ） (2020-06-17T22:45:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。