Fugu-MT 論文翻訳(概要): Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs

論文の概要: Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs

arxiv url: http://arxiv.org/abs/2409.18721v1
Date: Fri, 27 Sep 2024 13:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 15:09:41.737780
Title: Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs
Title（参考訳）: 大規模項目カタログを用いたシーケンスレコメンデーションのためのスケーラブルなクロスエントロピー損失
Authors: Gleb Mezentsev, Danil Gusak, Ivan Oseledets, Evgeny Frolov,
Abstract要約: 本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。複数のデータセットに対する実験結果から,SCEのピークメモリ使用率を最大100倍に抑える効果が示された。
参考スコア（独自算出の注目度）: 4.165917157093442
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scalability issue plays a crucial role in productionizing modern recommender systems. Even lightweight architectures may suffer from high computational overload due to intermediate calculations, limiting their practicality in real-world applications. Specifically, applying full Cross-Entropy (CE) loss often yields state-of-the-art performance in terms of recommendations quality. Still, it suffers from excessive GPU memory utilization when dealing with large item catalogs. This paper introduces a novel Scalable Cross-Entropy (SCE) loss function in the sequential learning setup. It approximates the CE loss for datasets with large-size catalogs, enhancing both time efficiency and memory usage without compromising recommendations quality. Unlike traditional negative sampling methods, our approach utilizes a selective GPU-efficient computation strategy, focusing on the most informative elements of the catalog, particularly those most likely to be false positives. This is achieved by approximating the softmax distribution over a subset of the model outputs through the maximum inner product search. Experimental results on multiple datasets demonstrate the effectiveness of SCE in reducing peak memory usage by a factor of up to 100 compared to the alternatives, retaining or even exceeding their metrics values. The proposed approach also opens new perspectives for large-scale developments in different domains, such as large language models.
Abstract（参考訳）: スケーラビリティの問題は、現代のレコメンデータシステムを生産する上で重要な役割を担います。軽量アーキテクチャでさえ、中間計算による高い計算過負荷に悩まされ、現実のアプリケーションでは実用性が制限される。具体的には、完全なクロスエントロピー(CE)損失を適用すると、推奨品質の面で最先端のパフォーマンスが得られることが多い。それでも、大きなアイテムカタログを扱う場合、GPUメモリの過剰使用に悩まされる。本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。従来のネガティブサンプリング手法とは異なり,本手法では選択的なGPU効率計算手法を用いて,特に偽陽性である可能性が最も高いカタログの最も情報性の高い要素に着目した。これは、モデルのサブセット上でのソフトマックス分布を最大内部積探索によって近似することで達成される。複数のデータセットに対する実験結果から、SCEのピークメモリ使用率を最大100倍に削減し、メトリクス値を維持したり、あるいは超えたりすることで、SCEの有効性を示す。提案手法はまた,大規模言語モデルなど,さまざまな領域における大規模開発に対する新たな視点を開放する。

関連論文リスト

Efficient Recommendation with Millions of Items by Dynamic Pruning of Sub-Item Embeddings [63.117573355917465]
そこで本稿では,大規模項目カタログにおける最上位項目の探索を効率的に行う動的プルーニングアルゴリズムを提案する。我々のRecJPQPruneアルゴリズムは、理論的には、上位K候補リストから潜在的に上位の項目が除外されないことを保証しているため、安全である。本研究では,RecJPQPrune を用いた2つの大規模データセットと3つの推奨モデルによる評価実験を行った。
論文参考訳（メタデータ） (2025-05-01T14:36:33Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
RECE: Reduced Cross-Entropy Loss for Large-Catalogue Sequential Recommenders [4.165917157093442]
本稿では,RECE(Reduced Cross-Entropy)の損失について紹介する。 RECEは、完全なCE損失の最先端性能を享受しながら、メモリ消費を大幅に削減する。各種データセットによる実験結果から,RECEは既存の手法に比べて最大12倍のトレーニングピークメモリ使用量を削減できることがわかった。
論文参考訳（メタデータ） (2024-08-05T10:02:29Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Zooming Out on Zooming In: Advancing Super-Resolution for Remote Sensing [31.409817016287704]
リモートセンシングのための超解像は、惑星の監視に大きな影響を与える可能性がある。多くの注意を払っているにもかかわらず、いくつかの矛盾や課題により、実際にデプロイされるのを妨げている。この研究は、従来の測定値よりも人間の判断にはるかによく対応している、超高解像度のCLIPScoreのための新しい測定基準を示す。
論文参考訳（メタデータ） (2023-11-29T21:06:45Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Efficient and Scalable Recommendation via Item-Item Graph Partitioning [10.390315462253726]
協調フィルタリング(CF)はレコメンダシステムにおいて広く研究されている問題である。アイテム-イットグラフ分割(ERGP)による効率的かつスケーラブルなレコメンデーションを提案する。
論文参考訳（メタデータ） (2022-07-13T04:37:48Z)
DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文参考訳（メタデータ） (2022-03-02T15:25:27Z)
A Generic Network Compression Framework for Sequential Recommender Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。 CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文参考訳（メタデータ） (2020-04-21T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。