論文の概要: RecPipe: Co-designing Models and Hardware to Jointly Optimize
Recommendation Quality and Performance
- arxiv url: http://arxiv.org/abs/2105.08820v1
- Date: Tue, 18 May 2021 20:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:42:55.853908
- Title: RecPipe: Co-designing Models and Hardware to Jointly Optimize
Recommendation Quality and Performance
- Title(参考訳): RecPipe: 推奨品質とパフォーマンスを両立させる共設計モデルとハードウェア
- Authors: Udit Gupta, Samuel Hsia, Jeff (Jun) Zhang, Mark Wilkening, Javin
Pombra, Hsien-Hsin S. Lee, Gu-Yeon Wei, Carole-Jean Wu, David Brooks
- Abstract要約: RecPipeは、推奨品質と推論性能を共同で最適化するシステムである。
RPAccelは、品質、テールレイテンシ、システムスループットを共同で最適化するカスタムアクセラレータである。
- 参考スコア(独自算出の注目度): 6.489720534548981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning recommendation systems must provide high quality, personalized
content under strict tail-latency targets and high system loads. This paper
presents RecPipe, a system to jointly optimize recommendation quality and
inference performance. Central to RecPipe is decomposing recommendation models
into multi-stage pipelines to maintain quality while reducing compute
complexity and exposing distinct parallelism opportunities. RecPipe implements
an inference scheduler to map multi-stage recommendation engines onto
commodity, heterogeneous platforms (e.g., CPUs, GPUs).While the hardware-aware
scheduling improves ranking efficiency, the commodity platforms suffer from
many limitations requiring specialized hardware. Thus, we design RecPipeAccel
(RPAccel), a custom accelerator that jointly optimizes quality, tail-latency,
and system throughput. RPAc-cel is designed specifically to exploit the
distinct design space opened via RecPipe. In particular, RPAccel processes
queries in sub-batches to pipeline recommendation stages, implements dual
static and dynamic embedding caches, a set of top-k filtering units, and a
reconfigurable systolic array. Com-pared to prior-art and at iso-quality, we
demonstrate that RPAccel improves latency and throughput by 3x and 6x.
- Abstract(参考訳): ディープラーニングレコメンデーションシステムは、厳格なテールレイテンシターゲットと高いシステム負荷の下で高品質でパーソナライズされたコンテンツを提供する必要がある。
本稿では,推薦品質と推論性能を協調的に最適化するRecPipeを提案する。
central to recpipeは、計算の複雑さを減らし、異なる並列処理の機会を露出しながら、品質を維持するために、レコメンデーションモデルを多段階パイプラインに分解する。
recpipeは、多段階のレコメンデーションエンジンを、コモディティで異種プラットフォーム(cpuやgpuなど)にマッピングする推論スケジューラを実装している。
そこで我々は,品質,テールレイテンシ,システムスループットを共同で最適化するカスタムアクセラレータrecpipeaccel(rpaccel)を設計した。
RPAc-celはRecPipeを通じてオープンされた異なるデザイン空間を利用するように設計されている。
特にRPAccelは、サブバッチでクエリをパイプラインレコメンデーションステージに処理し、デュアルな静的および動的埋め込みキャッシュ、トップkフィルタリングユニットのセット、再構成可能なsystolic配列を実装している。
先行技術とアイソクオリティに比較して、RPAccelはレイテンシとスループットを3倍と6倍改善することを示した。
関連論文リスト
- Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - MP-Rec: Hardware-Software Co-Design to Enable Multi-Path Recommendation [8.070008246742681]
最先端のレコメンデーションモデルは、テラバイト規模の埋め込みテーブルを使ってユーザの好みを学習する。
組込み表現とハードウェアプラットフォームとの相乗効果が,アルゴリズムおよびシステム性能の改善につながることを示す。
論文 参考訳(メタデータ) (2023-02-21T18:38:45Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - MLComp: A Methodology for Machine Learning-based Performance Estimation
and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences [10.200899224740871]
組込みソフトウェア最適化のための新しい強化学習型ポリシー手法を提案する。
異なる機械学習モデルが自動的にテストされ、最適なものを選択する。
また、ターゲットとするプラットフォームやアプリケーションドメインに対して、フレームワークを効率的にトレーニングできることも示しています。
論文 参考訳(メタデータ) (2020-12-09T19:13:39Z) - Sapphire: Automatic Configuration Recommendation for Distributed Storage
Systems [11.713288567936875]
チューニングパラメータは、大幅なパフォーマンス向上を提供するが、深い経験と専門知識を必要とする難しいタスクである。
最適な構成を推奨するための自動シミュレーションベースのアプローチであるSapphireを提案する。
その結果、デフォルト設定に比べて、SapphireはCephのパフォーマンスを2.2倍に大幅に向上させた。
論文 参考訳(メタデータ) (2020-07-07T06:17:07Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。