論文の概要: Scalable Machine Learning Training Infrastructure for Online Ads Recommendation and Auction Scoring Modeling at Google
- arxiv url: http://arxiv.org/abs/2501.10546v1
- Date: Fri, 17 Jan 2025 20:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:57.402775
- Title: Scalable Machine Learning Training Infrastructure for Online Ads Recommendation and Auction Scoring Modeling at Google
- Title(参考訳): Googleにおけるオンライン広告推薦とオークションスコーリングモデリングのためのスケーラブルな機械学習トレーニング基盤
- Authors: George Kurian, Somayeh Sardashti, Ryan Sims, Felix Berger, Gary Holt, Yang Li, Jeremiah Willcock, Kaiyuan Wang, Herve Quiroz, Abdulrahman Salem, Julian Grady,
- Abstract要約: Googleスケールの広告レコメンデーションとオークションスコアリングモデルでは、膨大な計算リソースが要求される。
本稿では,効率的なエンドツーエンド実行に対処しなければならない3つの重要な課題に対する解決策を提案する。
- 参考スコア(独自算出の注目度): 4.0088714133342895
- License:
- Abstract: Large-scale Ads recommendation and auction scoring models at Google scale demand immense computational resources. While specialized hardware like TPUs have improved linear algebra computations, bottlenecks persist in large-scale systems. This paper proposes solutions for three critical challenges that must be addressed for efficient end-to-end execution in a widely used production infrastructure: (1) Input Generation and Ingestion Pipeline: Efficiently transforming raw features (e.g., "search query") into numerical inputs and streaming them to TPUs; (2) Large Embedding Tables: Optimizing conversion of sparse features into dense floating-point vectors for neural network consumption; (3) Interruptions and Error Handling: Minimizing resource wastage in large-scale shared datacenters. To tackle these challenges, we propose a shared input generation technique to reduce computational load of input generation by amortizing costs across many models. Furthermore, we propose partitioning, pipelining, and RPC (Remote Procedure Call) coalescing software techniques to optimize embedding operations. To maintain efficiency at scale, we describe novel preemption notice and training hold mechanisms that minimize resource wastage, and ensure prompt error resolution. These techniques have demonstrated significant improvement in Google production, achieving a 116% performance boost and an 18% reduction in training costs across representative models.
- Abstract(参考訳): Googleスケールの大規模広告レコメンデーションとオークションスコアリングモデルでは、膨大な計算リソースが要求される。
TPUのような特殊なハードウェアは線形代数計算を改善したが、大規模システムではボトルネックが持続する。
本稿では,(1) 入力生成と取り込みパイプライン: 生の特徴(例えば"検索クエリ")を数値入力に変換してTPUにストリーミングする,(2) 大規模な埋め込みテーブル: ニューラルネットワークの消費のために,スパース特徴を高密度な浮動小数点ベクトルに変換する,(3) 割り込みとエラー処理: 大規模共有データセンターにおけるリソース無駄を最小限にする,という3つの重要な課題に対する解決策を提案する。
これらの課題に対処するために,多くのモデルにまたがるコストを償却することで,入力生成の計算負荷を低減するための共有入力生成手法を提案する。
さらに、埋め込み操作を最適化するための分割、パイプライニング、RPC(Remote procedure Call)合体ソフトウェア技術を提案する。
大規模で効率を維持するため,資源浪費を最小限に抑える新しいプリエンプション通知とトレーニングホールド機構を記述し,即時エラー解決を確実にする。
これらの技術は、Googleの生産において大幅に改善され、パフォーマンスが116%向上し、代表モデル全体のトレーニングコストが18%削減された。
関連論文リスト
- Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Accelerated AI Inference via Dynamic Execution Methods [0.562479170374811]
本稿では,入力に基づいて計算フローを最適化する動的実行手法に着目する。
議論されている手法には、ディープネットワークからの早期離脱、言語モデルの投機的サンプリング、拡散モデルの適応的なステップが含まれる。
実験により、これらの動的アプローチは、品質を損なうことなく、レイテンシとスループットを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-10-30T12:49:23Z) - SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。
本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。
提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文 参考訳(メタデータ) (2024-10-14T14:32:55Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - ANDREAS: Artificial intelligence traiNing scheDuler foR accElerAted
resource clusterS [1.798617052102518]
パフォーマンスを最大化し、データセンターの運用コストを最小限に抑える高度なスケジューリングソリューションであるANDREASを提案します。
実験の結果,第一原理法では平均で30~62%のコスト削減が可能であった。
論文 参考訳(メタデータ) (2021-05-11T14:36:19Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。