Fugu-MT 論文翻訳(概要): An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

論文の概要: An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

arxiv url: http://arxiv.org/abs/2603.16428v1
Date: Tue, 17 Mar 2026 12:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.261052
Title: An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU
Title（参考訳）: 単一GPU上でのファインチューニングのための効率的な異種共設計
Authors: Ruijia Yang, Zeyi Wen,
Abstract要約: ドメイン適応には細調整の大型言語モデル(LLM)が不可欠だが、そのメモリ集約性はほとんどのGPUの能力を超えている。単GPU環境向けに設計された新しいシステムであるSlideFormerを紹介する。 GPUをスライディングウィンドウとして扱い、GPUをCPU更新とマルチ層I/Oでオーバーラップする軽量非同期エンジン。
参考スコア（独自算出の注目度）: 10.811837575220814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning Large Language Models (LLMs) has become essential for domain adaptation, but its memory-intensive property exceeds the capabilities of most GPUs. To address this challenge and democratize LLM fine-tuning, we present SlideFormer, a novel system designed for single-GPU environments. Our innovations are: (1) A lightweight asynchronous engine that treats the GPU as a sliding window and overlaps GPU computation with CPU updates and multi-tier I/O. (2) A highly efficient heterogeneous memory management scheme significantly reduces peak memory usage. (3) Optimized Triton kernels to solve key bottlenecks and integrated advanced I/O. This collaborative design enables fine-tuning of the latest 123B+ models on a single RTX 4090, supporting up to 8x larger batch sizes and 6x larger models. In evaluations, SlideFormer achieves 1.40x to 6.27x higher throughput while roughly halving CPU/GPU memory usage compared to baselines, sustaining >95% peak performance on both NVIDIA and AMD GPUs.
Abstract（参考訳）: 大規模言語モデル(LLM)はドメイン適応に欠かせないものとなっているが、そのメモリ集約性はほとんどのGPUの能力を超えている。この課題に対処し、LLMの微調整を民主化するために、シングルGPU環境向けに設計された新しいシステムであるSlideFormerを提案する。 1) GPUをスライディングウィンドウとして扱い、GPU計算とCPU更新とマルチ層I/Oとをオーバーラップする軽量非同期エンジン。 2) 高効率なヘテロジニアスメモリ管理方式はピークメモリ使用量を大幅に削減する。 (3)鍵ボトルネックの解決とI/O統合のための最適化されたトリトンカーネル。この共同設計により、最新の123B+モデルを単一のRTX 4090で微調整することができ、最大8倍のバッチサイズと6倍のモデルをサポートする。評価では、SlideFormerのスループットは1.40倍から6.27倍、CPU/GPUのメモリ使用量はベースラインに比べて半減し、NVIDIAとAMDの両方で95%以上のピーク性能を維持している。

関連論文リスト

GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。 AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文参考訳（メタデータ） (2025-12-25T14:47:36Z)
A Scalable Multi-GPU Framework for Encrypted Large-Model Inference [5.966282323502589]
完全同型暗号化(FHE)を使用した暗号化AIは、強力なプライバシ保証を提供する。最近の研究はFHEを加速するためにASICを提案しているが、計算を制約する高価な先進的な製造プロセスを必要としている。本稿では,大規模モデル上でのFHE推論のためのマルチGPUフレームワークであるCeriumについて述べる。
論文参考訳（メタデータ） (2025-12-12T04:15:38Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文参考訳（メタデータ） (2021-04-05T23:06:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。