論文の概要: TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning
with Hardware Support for Embeddings
- arxiv url: http://arxiv.org/abs/2304.01433v2
- Date: Mon, 10 Apr 2023 14:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:58:49.127748
- Title: TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning
with Hardware Support for Embeddings
- Title(参考訳): TPU v4: 組み込みのためのハードウェアサポートを備えた、光学的に再構成可能な機械学習用スーパーコンピュータ
- Authors: Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan,
Lifeng Nai, Nishant Patil, Suvinay Subramanian, Andy Swing, Brian Towles,
Cliff Young, Xiang Zhou, Zongwei Zhou, and David Patterson
- Abstract要約: TPU v4は、Googleドメイン固有アーキテクチャ(DSA)と機械学習(ML)モデルのための第3のスーパーコンピュータである。
より安価で低消費電力で、インフィニバンドやOCSや基盤となる光学部品よりも高速で、システムコストの5%、システムパワーの3%である。
TPU v4のスーパーコンピュータは4096チップで4倍大きく、全体としては10倍高速である。
- 参考スコア(独自算出の注目度): 10.330237932810377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In response to innovations in machine learning (ML) models, production
workloads changed radically and rapidly. TPU v4 is the fifth Google domain
specific architecture (DSA) and its third supercomputer for such ML models.
Optical circuit switches (OCSes) dynamically reconfigure its interconnect
topology to improve scale, availability, utilization, modularity, deployment,
security, power, and performance; users can pick a twisted 3D torus topology if
desired. Much cheaper, lower power, and faster than Infiniband, OCSes and
underlying optical components are <5% of system cost and <3% of system power.
Each TPU v4 includes SparseCores, dataflow processors that accelerate models
that rely on embeddings by 5x-7x yet use only 5% of die area and power.
Deployed since 2020, TPU v4 outperforms TPU v3 by 2.1x and improves
performance/Watt by 2.7x. The TPU v4 supercomputer is 4x larger at 4096 chips
and thus ~10x faster overall, which along with OCS flexibility helps large
language models. For similar sized systems, it is ~4.3x-4.5x faster than the
Graphcore IPU Bow and is 1.2x-1.7x faster and uses 1.3x-1.9x less power than
the Nvidia A100. TPU v4s inside the energy-optimized warehouse scale computers
of Google Cloud use ~3x less energy and produce ~20x less CO2e than
contemporary DSAs in a typical on-premise data center.
- Abstract(参考訳): 機械学習(ML)モデルの革新に応えて、プロダクションワークロードは根本的に、そして急速に変化した。
TPU v4は、Googleドメイン特化アーキテクチャ(DSA)の第5位であり、MLモデルのための第3のスーパーコンピュータである。
光回路スイッチ(OCSe)は、その相互接続トポロジを動的に再構成し、スケール、可用性、利用、モジュール性、デプロイメント、セキュリティ、パワー、パフォーマンスを向上させる。
InfinibandやOCSやその基盤となる光学部品よりもはるかに安価で低消費電力で高速であり、システムコストの5%、システムパワーの3%である。
各TPU v4にはSparseCoresが含まれており、5x-7xの埋め込みに依存しながらダイエリアとパワーの5%しか使用していないモデルを高速化するデータフロープロセッサである。
TPU v4は2020年からデプロイされ、TPU v3より2.1倍、パフォーマンス/Wattは2.7倍向上した。
TPU v4のスーパーコンピュータは4096チップで4倍大きく、全体として約10倍速くなり、OCSの柔軟性も大きな言語モデルに役立つ。
同様のサイズのシステムでは、graphcore ipu bowより約4.3x-4.5倍高速で1.2x-1.7倍高速で、nvidia a100より1.3x-1.9倍少ない。
エネルギー最適化されたGoogle Cloudの倉庫スケールコンピュータ内のTPU v4はエネルギーを約3倍削減し、典型的なオンプレミスデータセンターにおける現在のDSAの約20倍のCO2eを生成する。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform [13.326025546527784]
本稿では,オープンソースのマルチティニーコアRISC-Vプラットフォーム上で,トランスフォーマーモデルの最初のエンドツーエンド推論結果を示す。
エンコーダのみのモデルでは、最も最適化された実装とベースラインバージョンの間の最大12.8倍のスピードアップを示す。
デコーダのみのトポロジでは、非自己回帰(NAR)モードで16.1倍、オート回帰(AR)モードで最大35.6倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-05-29T17:16:59Z) - HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis [0.1979158763744267]
我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちLlama 2のアクセラレータを開発する。
我々はこの手法をHLSTransformと呼び、HLSで合成したFPGA設計はトークンあたりのエネルギーの最大12.75倍の削減と8.25倍の削減を実現した。
トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。
論文 参考訳(メタデータ) (2024-04-29T21:26:06Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - An Ultra Fast Low Power Convolutional Neural Network Image Sensor with
Pixel-level Computing [3.41234610095684]
本稿では,カラム読み出し回路前の畳み込み動作を可能にし,画像読み出し速度を大幅に向上できるpip( processing-in-pixel) cmosセンサアーキテクチャを提案する。
言い換えれば、計算効率は4.75 TOPS/wであり、最先端の約3.6倍である。
論文 参考訳(メタデータ) (2021-01-09T07:10:03Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。