論文の概要: Fine-Tuning and Serving Gemma 4 31B on Google Cloud TPU: A Technical Comparison with GPU Baselines
- arxiv url: http://arxiv.org/abs/2605.25645v2
- Date: Tue, 02 Jun 2026 13:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.058104
- Title: Fine-Tuning and Serving Gemma 4 31B on Google Cloud TPU: A Technical Comparison with GPU Baselines
- Title(参考訳): Google Cloud TPU上のGemma 4 31Bの微調整と実行:GPUベースラインとの技術的比較
- Authors: Jatin Kishnani, Mayank Goel, Amit Singh, Pulkit Agrawal, Sairanjan Mishra,
- Abstract要約: 本稿では,Google の Gemma 4 31B モデルを TPU ハードウェア上で実現した,ファインチューニングの最初のエンドツーエンドデモを紹介する。
Google TPU v5p-8のトレーニングにLoRAを使用し、推論にTPU v6e-8(Trillium)を使用すると、GPUネイティブなトレーニングレシピの移植に必要なコードレベルの適応の完全なセットを文書化する。
- 参考スコア(独自算出の注目度): 12.398594139609207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first end-to-end demonstration of fine-tuning and serving Google's Gemma 4 31B model on TPU hardware, providing an empirical comparison of TPU and GPU platforms for large language model adaptation. Using LoRA on a Google TPU v5p-8 for training and TPU v6e-8 (Trillium) for inference, we document the full set of code-level adaptations required to port a GPU-native training recipe, built on PyTorch, HuggingFace TRL, and FSDP, to the JAX + Tunix/Qwix stack. These adaptations span mesh configuration, LoRA module naming conventions, sharding annotation corrections, gradient checkpointing, data pipeline restructuring, and a custom Orbax-to-safetensors checkpoint merging procedure. For inference, we detail the vLLM-TPU Docker setup necessary to serve Gemma 4 on v6e-8 and characterize the resulting latency and throughput profile. Compared with a 2xH100 GPU baseline under identical hyperparameters, TPU training completes 1.61x faster at 2.12x lower cost. Inference throughput is within 3% across platforms, while TPU achieves 2x lower time-to-first-token (235 ms vs. 475 ms). Together, the TPU configuration is 1.82x cheaper for a representative train-plus-service workload. Our work removes a critical gap in the open tooling ecosystem and provides practitioners with a reproducible, production-ready recipe for Gemma 4 deployment on TPU infrastructure.
- Abstract(参考訳): 本稿では,Google の Gemma 4 31B モデルを TPU ハードウェア上で実現し,大規模言語モデル適応のための TPU と GPU プラットフォームを実証的に比較した最初のエンド・ツー・エンドのデモを紹介する。
Google TPU v5p-8のトレーニングにLoRAを使用し、推論にTPU v6e-8(Trillium)を使用すると、PyTorch、HuggingFace TRL、FSDP上に構築されたGPUネイティブなトレーニングレシピをJAX + Tunix/Qwixスタックに移植するために必要なコードレベルの適応の完全なセットを文書化する。
これらの適応はメッシュ構成、LoRAモジュール命名規則、シャーディングアノテーション修正、勾配チェックポイント、データパイプライン再構築、カスタムOrbax-to-safetensorsチェックポイントマージ手順にまたがる。
推論のために、vLLM-TPU Dockerセットアップの詳細を説明し、Gemma 4をv6e-8で提供し、その結果のレイテンシとスループットプロファイルを特徴付ける。
2xH100 GPUベースラインを同じハイパーパラメータで比較すると、TPUトレーニングは2.12倍のコストで1.61倍高速である。
推論スループットはプラットフォーム間で3%以内であり、TPUは2倍低い時間対1トーケン(235 ms vs. 475 ms)を達成する。
TPU構成は、代表的な列車+サービスワークロードの1.82倍のコストがかかる。
当社の作業は、オープンツールエコシステムにおける重要なギャップを取り除き、TPUインフラストラクチャ上でGemma 4をデプロイするための再現可能な、プロダクション対応のレシピを実践者に提供します。
関連論文リスト
- Ragged Paged Attention: A High-Performance and Flexible LLM Inference Kernel for TPU [3.9009842917937534]
我々はGoogleのTPUのための高性能で柔軟なアテンションカーネルであるRPA(Ragged Paged Attention)を提示する。
RPAはデコードで最大86%のメモリ帯域利用率(MBU)、プリフィルで73%のモデルFLOPs利用率(MFU)を達成する。
論文 参考訳(メタデータ) (2026-04-16T18:30:13Z) - Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents [56.72789202127874]
この記事では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。
クラウドとエッジのコラボレーションとリアルタイムのインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。
オープンソースモデル上で20以上のGUIベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2026-02-15T01:52:19Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning
with Hardware Support for Embeddings [10.330237932810377]
TPU v4は、Googleドメイン固有アーキテクチャ(DSA)と機械学習(ML)モデルのための第3のスーパーコンピュータである。
より安価で低消費電力で、インフィニバンドやOCSや基盤となる光学部品よりも高速で、システムコストの5%、システムパワーの3%である。
TPU v4のスーパーコンピュータは4096チップで4倍大きく、全体としては10倍高速である。
論文 参考訳(メタデータ) (2023-04-04T00:52:46Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Exploring the limits of Concurrency in ML Training on Google TPUs [12.165692382950713]
我々は、4096 TPU-v3チップを備えたメッシュであるGoogle Multipodでモデルをスケールする手法を提案する。
Google TPU-v3 Multipod マシンの 4erf モデルでは,16秒から28秒間のトレーニング時間を記録できる。
論文 参考訳(メタデータ) (2020-11-07T00:18:43Z) - LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning [146.51221523793342]
LightPAFFは、2段階の知識蒸留を使用して、大きな教師モデルから軽量の学生モデルに知識を伝達する。
LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善する。
論文 参考訳(メタデータ) (2020-04-27T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。