Fugu-MT 論文翻訳(概要): An Enhanced Batch Query Architecture in Real-time Recommendation

論文の概要: An Enhanced Batch Query Architecture in Real-time Recommendation

arxiv url: http://arxiv.org/abs/2409.00400v1
Date: Sat, 31 Aug 2024 09:19:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 15:08:42.457998
Title: An Enhanced Batch Query Architecture in Real-time Recommendation
Title（参考訳）: リアルタイムレコメンデーションにおける拡張バッチクエリアーキテクチャ
Authors: Qiang Zhang, Zhipeng Teng, Disheng Wu, Jiayin Wang,
Abstract要約: Webサイトやアプリの産業レコメンデーションシステムでは、ユーザの関心事に関連するトップnの結果をリコールし、予測することが不可欠である。我々は,リアルタイムレコメンデーションシステムのための高性能バッチクエリアーキテクチャの設計と実装を行った。このアーキテクチャは1年以上にわたってbilibiliレコメンデーションシステムにデプロイされ、最小限のリソース増加を伴う10倍のモデルをサポートする。
参考スコア（独自算出の注目度）: 9.073405491915198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In industrial recommendation systems on websites and apps, it is essential to recall and predict top-n results relevant to user interests from a content pool of billions within milliseconds. To cope with continuous data growth and improve real-time recommendation performance, we have designed and implemented a high-performance batch query architecture for real-time recommendation systems. Our contributions include optimizing hash structures with a cacheline-aware probing method to enhance coalesced hashing, as well as the implementation of a hybrid storage key-value service built upon it. Our experiments indicate this approach significantly surpasses conventional hash tables in batch query throughput, achieving up to 90% of the query throughput of random memory access when incorporating parallel optimization. The support for NVMe, integrating two-tier storage for hot and cold data, notably reduces resource consumption. Additionally, the system facilitates dynamic updates, automated sharding of attributes and feature embedding tables, and introduces innovative protocols for consistency in batch queries, thereby enhancing the effectiveness of real-time incremental learning updates. This architecture has been deployed and in use in the bilibili recommendation system for over a year, a video content community with hundreds of millions of users, supporting 10x increase in model computation with minimal resource growth, improving outcomes while preserving the system's real-time performance.
Abstract（参考訳）: Webサイトやアプリの産業レコメンデーションシステムでは、数ミリ秒以内の数十億のコンテンツプールから、ユーザの関心に関連するトップnの結果をリコールし、予測することが不可欠である。連続データの成長に対処し、リアルタイムレコメンデーション性能を向上させるために、リアルタイムレコメンデーションシステムのための高性能バッチクエリアーキテクチャを設計、実装した。我々の貢献は、ハッシュ構造をキャッシュラインを意識した探索手法で最適化し、合体ハッシュを強化し、その上に構築されたハイブリッドストレージキーバリューサービスを実装することである。提案手法は,並列最適化を組み込んだ場合,バッチクエリスループットにおいて従来のハッシュテーブルをはるかに上回り,ランダムメモリアクセスのクエリスループットの最大90%を達成できることを示す。 NVMeのサポート、ホットデータとコールドデータのための2層ストレージの統合、特にリソース消費の削減。さらに、動的更新、属性の自動シャーディング、機能埋め込みテーブルの活用、バッチクエリにおける一貫性のための革新的なプロトコルの導入、即時インクリメンタルな学習更新の有効性の向上などを実現している。このアーキテクチャは,数億人のユーザが参加するビデオコンテンツコミュニティであるbilibiliレコメンデーションシステムに1年以上にわたってデプロイされ,使用されてきた。

関連論文リスト

OneRec Technical Report [65.24343832974165]
提案するOneRecは,エンド・ツー・エンドのジェネレーティブ・アプローチによってレコメンデーションシステムを再評価する。まず、現在のレコメンデーションモデルの計算FLOPを10$times$で拡張し、特定のバウンダリ内でのレコメンデーションのスケーリング法則を特定した。第2に、推薦の最適化にこれまで適用が困難であった強化学習技術は、この枠組みに有意な可能性を示している。
論文参考訳（メタデータ） (2025-06-16T16:58:55Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [0.0]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-02T01:16:10Z)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [1.3450852784287828]
Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)回答の信頼性を高める。 RAGは、大規模なベクトルデータベースから関連ドキュメントを探すのに計算コストがかかるため、エンドツーエンドの推論時間を増加させる。本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
論文参考訳（メタデータ） (2025-03-07T15:54:04Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Dynamic Optimization of Storage Systems Using Reinforcement Learning Techniques [40.13303683102544]
本稿では,ストレージシステム構成を動的に最適化する強化学習ベースのフレームワークであるRL-Storageを紹介する。 RL-Storageは、リアルタイムI/Oパターンから学習し、キャッシュサイズ、キュー深さ、readahead設定などの最適なストレージパラメータを予測する。スループットは最大2.6倍、レイテンシはベースラインに比べて43%向上する。
論文参考訳（メタデータ） (2024-12-29T17:41:40Z)
Novel Architecture for Distributed Travel Data Integration and Service Provision Using Microservices [1.03590082373586]
本稿では,航空会社予約システムの柔軟性と性能を向上させるアーキテクチャを提案する。設計にはRedisキャッシュ技術、KafkaとRabbitMQの2つの異なるメッセージングシステム、アーキテクチャストレージの2つのタイプ(MongoDBとDocker)が含まれている。このアーキテクチャは、99.5%の素晴らしいレベルのデータ一貫性と、75ms未満のデータ伝搬の遅延を提供する。
論文参考訳（メタデータ） (2024-10-31T17:41:14Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
EASRec: Elastic Architecture Search for Efficient Long-term Sequential Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。 EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文参考訳（メタデータ） (2024-02-01T07:22:52Z)
Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。 NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文参考訳（メタデータ） (2023-12-21T02:48:44Z)
Hybrid-RACA: Hybrid Retrieval-Augmented Composition Assistance for Real-time Text Prediction [17.94189417448127]
リアルタイムテキスト予測のためのハイブリッド検索合成支援(Hybrid-RACA)を提案する。クラウドベースの大規模言語モデルと、拡張メモリを検索することで、より小さなクライアントサイドモデルとを効率的に組み合わせる。 5つのデータセットに対する実験により、Hybrid-RACAは低レイテンシを維持しながら高いパフォーマンスを提供することを示した。
論文参考訳（メタデータ） (2023-08-08T12:27:20Z)
HPC Storage Service Autotuning Using Variational-Autoencoder-Guided Asynchronous Bayesian Optimization [3.153934519625761]
我々は,HPCストレージサービスパラメータをチューニングするための変分自動エンコーダ誘導非同期ベイズ最適化法を開発した。我々は、DeepHyperオープンソースフレームワークにアプローチを実装し、ArgonneのThetaスーパーコンピュータ上での高エネルギー物理ワークフローの自動チューニングに適用する。われわれのアプローチは、最先端のオートチューニングフレームワークのスピードに匹敵し、リソース利用と並列化の能力でそれらを上回ります。
論文参考訳（メタデータ） (2022-10-03T10:12:57Z)
BagPipe: Accelerating Deep Recommendation Model Training [9.911467752221863]
Bagpipeは、キャッシュとプレフェッチを使用して、リモート埋め込みアクセスと計算を重複させるディープレコメンデーションモデルをトレーニングするシステムである。私たちは、ルックアヘッドアルゴリズムを使用して最適なキャッシュ更新決定を生成する新しいコンポーネントであるOracle Cacherを設計します。
論文参考訳（メタデータ） (2022-02-24T23:54:12Z)
Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文参考訳（メタデータ） (2021-10-20T17:06:09Z)
DHA: End-to-End Joint Optimization of Data Augmentation Policy, Hyper-parameter and Architecture [81.82173855071312]
本稿では,AutoMLコンポーネントを統合したエンドツーエンドソリューションを提案する。 Dhaは、様々なデータセット、特にセルベースの検索空間を持つImageNetの77.4%の精度で、最先端(SOTA)結果を達成する。
論文参考訳（メタデータ） (2021-09-13T08:12:50Z)
Fast Class-wise Updating for Online Hashing [196.14748396106955]
本稿では,FCOH(Fast Class-wise Updating for Online Hashing)と呼ばれる新しいオンラインハッシュ方式を提案する。クラスワイズ更新法は、バイナリコード学習を分解し、代わりにクラスワイズ方式でハッシュ関数を更新する。オンラインの効率をより高めるために,異なるバイナリ制約を独立に扱うことで,オンライントレーニングを高速化する半緩和最適化を提案する。
論文参考訳（メタデータ） (2020-12-01T07:41:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。