論文の概要: Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale
- arxiv url: http://arxiv.org/abs/2105.12676v1
- Date: Wed, 26 May 2021 16:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:08:51.631741
- Title: Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale
- Title(参考訳): 大規模レコメンデーションモデル推論を満足する低精度ハードウェアアーキテクチャ
- Authors: Zhaoxia (Summer) Deng, Jongsoo Park, Ping Tak Peter Tang, Haixin Liu,
Jie (Amy) Yang, Hector Yuen, Jianyu Huang, Daya Khudia, Xiaohan Wei, Ellie
Wen, Dhruv Choudhary, Raghuraman Krishnamoorthi, Carole-Jean Wu, Satish
Nadathur, Changkyu Kim, Maxim Naumov, Sam Naghshineh, Mikhail Smelyanskiy
- Abstract要約: 本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。
また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。
これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
- 参考スコア(独自算出の注目度): 11.121380180647769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tremendous success of machine learning (ML) and the unabated growth in ML
model complexity motivated many ML-specific designs in both CPU and accelerator
architectures to speed up the model inference. While these architectures are
diverse, highly optimized low-precision arithmetic is a component shared by
most. Impressive compute throughputs are indeed often exhibited by these
architectures on benchmark ML models. Nevertheless, production models such as
recommendation systems important to Facebook's personalization services are
demanding and complex: These systems must serve billions of users per month
responsively with low latency while maintaining high prediction accuracy,
notwithstanding computations with many tens of billions parameters per
inference. Do these low-precision architectures work well with our production
recommendation systems? They do. But not without significant effort. We share
in this paper our search strategies to adapt reference recommendation models to
low-precision hardware, our optimization of low-precision compute kernels, and
the design and development of tool chain so as to maintain our models' accuracy
throughout their lifespan during which topic trends and users' interests
inevitably evolve. Practicing these low-precision technologies helped us save
datacenter capacities while deploying models with up to 5X complexity that
would otherwise not be deployed on traditional general-purpose CPUs. We believe
these lessons from the trenches promote better co-design between hardware
architecture and software engineering and advance the state of the art of ML in
industry.
- Abstract(参考訳): 機械学習(ML)の急激な成功と、MLモデルの複雑さの未完成な成長は、モデル推論を高速化するために、CPUとアクセラレータアーキテクチャの両方において、ML固有の多くの設計を動機づけた。
これらのアーキテクチャは多様であるが、高度に最適化された低精度算術は多くが共有するコンポーネントである。
印象的な計算スループットは、しばしばこれらのアーキテクチャによってベンチマークMLモデルで示される。
それでも、facebookのパーソナライズサービスにとって重要なレコメンデーションシステムのようなプロダクションモデルが要求され複雑である。これらのシステムは、推論毎に数十億のパラメータを持つ計算にもかかわらず、高い予測精度を維持しながら、低レイテンシで毎月数十億のユーザを応答的に提供しなければならない。
これらの低精度アーキテクチャは、当社の製品レコメンデーションシステムとうまく機能するのか?
そうです。
しかし、大きな努力がなければ。
本稿では,低精度ハードウェアへの参照レコメンデーションモデルの適用,低精度コンピューティングカーネルの最適化,およびトピックトレンドやユーザの関心が必然的に進化する期間を通じて,モデルの精度を維持するためのツールチェーンの設計と開発について紹介する。
これらの低精度技術の実践は、従来の汎用CPUにデプロイされない最大5倍の複雑さのモデルをデプロイしながら、データセンタの容量の削減に役立ちました。
これらの教訓は、ハードウェアアーキテクチャとソフトウェアエンジニアリングのより良い共同設計を促進し、業界におけるMLの最先端を後押しするものだと考えています。
関連論文リスト
- Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Model-to-Circuit Cross-Approximation For Printed Machine Learning
Classifiers [4.865819809855699]
プリントエレクトロニクス(PE)は、オンデマンド製造、低い非再帰エンジニアリングコスト、サブセント製造コストを約束する。
PEにおける大きな特徴サイズは、PEにおける複雑なMLモデルの実現を禁止している。
本稿では,PEにおける複雑なMLモデルを実現するため,自動層間近似フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T22:11:34Z) - Statistical Hardware Design With Multi-model Active Learning [1.7596501992526474]
本稿では,効率的なハードウェア設計の課題を解決するために,モデルに基づく能動的学習手法を提案する。
提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。
論文 参考訳(メタデータ) (2023-03-14T16:37:38Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - Cross-Layer Approximation For Printed Machine Learning Circuits [4.865819809855699]
印刷エレクトロニクス(PE)における機械学習(ML)アーキテクチャに適した層間近似を提案し,実装する。
その結果, クロス近似は, 最先端の精密設計と比較して, 平均面積47%, 消費電力44%, 精度1%以下で最適設計を提供することを示した。
論文 参考訳(メタデータ) (2022-03-11T13:41:15Z) - Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights [18.04657939198617]
本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
論文 参考訳(メタデータ) (2020-07-02T04:08:40Z) - Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-10T19:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。