Fugu-MT 論文翻訳(概要): Low-Precision Hardware Architectures Meet Recommendation Model Inference at Scale

論文の概要: Low-Precision Hardware Architectures Meet Recommendation Model Inference at Scale

arxiv url: http://arxiv.org/abs/2105.12676v1
Date: Wed, 26 May 2021 16:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-27 13:08:51.631741
Title: Low-Precision Hardware Architectures Meet Recommendation Model Inference at Scale
Title（参考訳）: 大規模レコメンデーションモデル推論を満足する低精度ハードウェアアーキテクチャ
Authors: Zhaoxia (Summer) Deng, Jongsoo Park, Ping Tak Peter Tang, Haixin Liu, Jie (Amy) Yang, Hector Yuen, Jianyu Huang, Daya Khudia, Xiaohan Wei, Ellie Wen, Dhruv Choudhary, Raghuraman Krishnamoorthi, Carole-Jean Wu, Satish Nadathur, Changkyu Kim, Maxim Naumov, Sam Naghshineh, Mikhail Smelyanskiy
Abstract要約: 本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
参考スコア（独自算出の注目度）: 11.121380180647769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tremendous success of machine learning (ML) and the unabated growth in ML model complexity motivated many ML-specific designs in both CPU and accelerator architectures to speed up the model inference. While these architectures are diverse, highly optimized low-precision arithmetic is a component shared by most. Impressive compute throughputs are indeed often exhibited by these architectures on benchmark ML models. Nevertheless, production models such as recommendation systems important to Facebook's personalization services are demanding and complex: These systems must serve billions of users per month responsively with low latency while maintaining high prediction accuracy, notwithstanding computations with many tens of billions parameters per inference. Do these low-precision architectures work well with our production recommendation systems? They do. But not without significant effort. We share in this paper our search strategies to adapt reference recommendation models to low-precision hardware, our optimization of low-precision compute kernels, and the design and development of tool chain so as to maintain our models' accuracy throughout their lifespan during which topic trends and users' interests inevitably evolve. Practicing these low-precision technologies helped us save datacenter capacities while deploying models with up to 5X complexity that would otherwise not be deployed on traditional general-purpose CPUs. We believe these lessons from the trenches promote better co-design between hardware architecture and software engineering and advance the state of the art of ML in industry.
Abstract（参考訳）: 機械学習(ML)の急激な成功と、MLモデルの複雑さの未完成な成長は、モデル推論を高速化するために、CPUとアクセラレータアーキテクチャの両方において、ML固有の多くの設計を動機づけた。これらのアーキテクチャは多様であるが、高度に最適化された低精度算術は多くが共有するコンポーネントである。印象的な計算スループットは、しばしばこれらのアーキテクチャによってベンチマークMLモデルで示される。それでも、facebookのパーソナライズサービスにとって重要なレコメンデーションシステムのようなプロダクションモデルが要求され複雑である。これらのシステムは、推論毎に数十億のパラメータを持つ計算にもかかわらず、高い予測精度を維持しながら、低レイテンシで毎月数十億のユーザを応答的に提供しなければならない。これらの低精度アーキテクチャは、当社の製品レコメンデーションシステムとうまく機能するのか? そうです。しかし、大きな努力がなければ。本稿では,低精度ハードウェアへの参照レコメンデーションモデルの適用,低精度コンピューティングカーネルの最適化,およびトピックトレンドやユーザの関心が必然的に進化する期間を通じて,モデルの精度を維持するためのツールチェーンの設計と開発について紹介する。これらの低精度技術の実践は、従来の汎用CPUにデプロイされない最大5倍の複雑さのモデルをデプロイしながら、データセンタの容量の削減に役立ちました。これらの教訓は、ハードウェアアーキテクチャとソフトウェアエンジニアリングのより良い共同設計を促進し、業界におけるMLの最先端を後押しするものだと考えています。

関連論文リスト

Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。 HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文参考訳（メタデータ） (2025-04-14T00:29:49Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文参考訳（メタデータ） (2025-01-23T02:14:08Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。 LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Model-to-Circuit Cross-Approximation For Printed Machine Learning Classifiers [4.865819809855699]
プリントエレクトロニクス(PE)は、オンデマンド製造、低い非再帰エンジニアリングコスト、サブセント製造コストを約束する。 PEにおける大きな特徴サイズは、PEにおける複雑なMLモデルの実現を禁止している。本稿では,PEにおける複雑なMLモデルを実現するため,自動層間近似フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T22:11:34Z)
Statistical Hardware Design With Multi-model Active Learning [1.7596501992526474]
本稿では,効率的なハードウェア設計の課題を解決するために,モデルに基づく能動的学習手法を提案する。提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。
論文参考訳（メタデータ） (2023-03-14T16:37:38Z)
Cross-Layer Approximation For Printed Machine Learning Circuits [4.865819809855699]
印刷エレクトロニクス(PE)における機械学習(ML)アーキテクチャに適した層間近似を提案し,実装する。その結果, クロス近似は, 最先端の精密設計と比較して, 平均面積47%, 消費電力44%, 精度1%以下で最適設計を提供することを示した。
論文参考訳（メタデータ） (2022-03-11T13:41:15Z)
Hardware Acceleration of Sparse and Irregular Tensor Computations of ML Models: A Survey and Insights [18.04657939198617]
本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
論文参考訳（メタデータ） (2020-07-02T04:08:40Z)
Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-03-10T19:34:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。