論文の概要: Deep Learning Model Acceleration and Optimization Strategies for Real-Time Recommendation Systems
- arxiv url: http://arxiv.org/abs/2506.11421v1
- Date: Fri, 13 Jun 2025 02:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.635218
- Title: Deep Learning Model Acceleration and Optimization Strategies for Real-Time Recommendation Systems
- Title(参考訳): リアルタイムレコメンデーションシステムのためのディープラーニングモデル高速化と最適化戦略
- Authors: Junli Shao, Jing Dong, Dingzhou Wang, Kowei Shih, Dannier Li, Chengrui Zhou,
- Abstract要約: リアルタイムレコメンデーションシステムの主な課題は、レコメンデーション品質を犠牲にすることなく、推論遅延を減らし、システムのスループットを向上する方法である。
本稿では,モデリングとシステムレベルのアクセラレーションと最適化を併用した手法を提案する。
実験の結果、元の推奨精度を維持しながら、我々の手法は、レイテンシをベースラインの30%未満に削減し、システムのスループットを2倍以上に削減した。
- 参考スコア(独自算出の注目度): 1.9316786310787222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of Internet services, recommendation systems play a central role in delivering personalized content. Faced with massive user requests and complex model architectures, the key challenge for real-time recommendation systems is how to reduce inference latency and increase system throughput without sacrificing recommendation quality. This paper addresses the high computational cost and resource bottlenecks of deep learning models in real-time settings by proposing a combined set of modeling- and system-level acceleration and optimization strategies. At the model level, we dramatically reduce parameter counts and compute requirements through lightweight network design, structured pruning, and weight quantization. At the system level, we integrate multiple heterogeneous compute platforms and high-performance inference libraries, and we design elastic inference scheduling and load-balancing mechanisms based on real-time load characteristics. Experiments show that, while maintaining the original recommendation accuracy, our methods cut latency to less than 30% of the baseline and more than double system throughput, offering a practical solution for deploying large-scale online recommendation services.
- Abstract(参考訳): インターネットサービスの急速な成長に伴い、レコメンデーションシステムはパーソナライズされたコンテンツを配信する上で中心的な役割を果たす。
膨大なユーザリクエストと複雑なモデルアーキテクチャに直面して、リアルタイムレコメンデーションシステムの重要な課題は、レコメンデーション品質を犠牲にすることなく、推論遅延を減らし、システムのスループットを向上する方法である。
本稿では、モデリングとシステムレベルのアクセラレーションと最適化を併用した手法を提案することにより、ディープラーニングモデルのリアルタイム設定における高い計算コストとリソースボトルネックに対処する。
モデルレベルでは、軽量ネットワーク設計、構造化プルーニング、重み量子化により、パラメータ数と計算要求を劇的に削減する。
システムレベルでは、複数の異種計算プラットフォームと高性能推論ライブラリを統合し、実時間負荷特性に基づいた弾性推論スケジューリングと負荷分散機構を設計する。
実験の結果,従来のレコメンデーションの精度を維持しながら,レイテンシをベースラインの30%未満に削減し,システムスループットを2倍以上に削減し,大規模オンラインレコメンデーションサービスをデプロイするための実用的なソリューションを提供することがわかった。
関連論文リスト
- Scalability Optimization in Cloud-Based AI Inference Services: Strategies for Real-Time Load Balancing and Automated Scaling [1.3689475854650441]
本研究では,クラウドAI推論サービスのための拡張性最適化フレームワークを提案する。
提案モデルは,適応負荷分布に対する強化学習と,正確な需要予測のためのディープニューラルネットワークを組み合わせたハイブリッドアプローチである。
実験の結果,提案モデルでは負荷分散効率を35倍に向上し,応答遅延を28。
論文 参考訳(メタデータ) (2025-04-16T04:00:04Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Online Client Scheduling and Resource Allocation for Efficient Federated Edge Learning [9.451084740123198]
フェデレートラーニング(FL)は、エッジデバイスが生データを共有せずに、機械学習モデルを協調的にトレーニングすることを可能にする。
しかし、電力、帯域幅などの制約のあるリソースを持つモバイルエッジネットワーク上にFLをデプロイすることは、高いトレーニングレイテンシと低いモデルの精度に悩まされる。
本稿では,資源制約と不確実性の下で,モバイルエッジネットワーク上でのFLの最適なクライアントスケジューリングとリソース割り当てについて検討する。
論文 参考訳(メタデータ) (2024-09-29T01:56:45Z) - Dynamic Sparse Learning: A Novel Paradigm for Efficient Recommendation [20.851925464903804]
本稿では,リコメンデーションモデルに適した新しい学習パラダイムであるDynamic Sparse Learningを紹介する。
DSLは革新的に、スクラッチから軽量スパースモデルをトレーニングし、各ウェイトの重要性を定期的に評価し、動的に調整する。
実験結果は、DSLの有効性を裏付け、トレーニングと推論のコストを大幅に削減し、同等のレコメンデーションパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-02-05T10:16:20Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Online Learning for Orchestration of Inference in Multi-User
End-Edge-Cloud Networks [3.6076391721440633]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
本稿では、最適オフロードポリシーを学習する強化学習に基づく計算オフロードソリューションを提案する。
我々のソリューションは、平均応答時間において、0.9%未満の精度で、最先端技術と比較して35%のスピードアップを提供する。
論文 参考訳(メタデータ) (2022-02-21T21:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。