論文の概要: TetriServe: Efficient DiT Serving for Heterogeneous Image Generation
- arxiv url: http://arxiv.org/abs/2510.01565v1
- Date: Thu, 02 Oct 2025 01:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.243968
- Title: TetriServe: Efficient DiT Serving for Heterogeneous Image Generation
- Title(参考訳): TetriServe: 異種画像生成のための効率的なDiTサービング
- Authors: Runyu Lu, Shiqi He, Wenxuan Tan, Shenggui Li, Ruofan Wu, Jeff J. Ma, Ang Chen, Mosharaf Chowdhury,
- Abstract要約: Diffusion Transformer (DiT) モデルは、反復的なデノゲーションステップによって高品質な画像を生成するのに優れている。
しかし、厳格なサービスレベルオブジェクト(SLO)の下でそれらを提供するのは、高い計算コストのために難しいです。
本稿では、高効率な画像生成のためにこの戦略を実装したDiTサービスシステムTetriServeを提案する。
- 参考スコア(独自算出の注目度): 14.532808607101023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT) models excel at generating highquality images through iterative denoising steps, but serving them under strict Service Level Objectives (SLOs) is challenging due to their high computational cost, particularly at large resolutions. Existing serving systems use fixed degree sequence parallelism, which is inefficient for heterogeneous workloads with mixed resolutions and deadlines, leading to poor GPU utilization and low SLO attainment. In this paper, we propose step-level sequence parallelism to dynamically adjust the parallel degree of individual requests according to their deadlines. We present TetriServe, a DiT serving system that implements this strategy for highly efficient image generation. Specifically, TetriServe introduces a novel round-based scheduling mechanism that improves SLO attainment: (1) discretizing time into fixed rounds to make deadline-aware scheduling tractable, (2) adapting parallelism at the step level and minimize GPU hour consumption, and (3) jointly packing requests to minimize late completions. Extensive evaluation on state-of-the-art DiT models shows that TetriServe achieves up to 32% higher SLO attainment compared to existing solutions without degrading image quality.
- Abstract(参考訳): Diffusion Transformer (DiT) モデルは、反復的なデノベーションステップによって高品質な画像を生成するのに優れているが、特に大規模解像度の計算コストが高いため、厳密なサービスレベルオブジェクト (SLO) 下での処理は困難である。
既存のサービスシステムは固定次シーケンス並列性を使用しており、これは不均一なワークロードに対して、解像度と期限の混合で非効率であり、GPU使用率の低下とSLOの達成率の低下につながる。
本稿では,各要求の並列度を納期に応じて動的に調整するステップレベルシーケンス並列性を提案する。
本稿では、高効率な画像生成のためにこの戦略を実装したDiTサービスシステムTetriServeを提案する。
特にTetriServeでは,SLOの達成率を向上する新たなラウンドベースのスケジューリング機構を導入している。(1)納期を意識したスケジューリングを実現するために固定ラウンドに時間を割くこと,(2)ステップレベルで並列性を適用してGPU時間の消費を最小化すること,3)遅延完了を最小限に抑えるためにリクエストを共同パッケージ化すること,などだ。
TetriServeは画像品質を劣化させることなく既存のソリューションと比較して最大32%のSLO達成を実現している。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Exploring Diffusion with Test-Time Training on Efficient Image Restoration [1.3830502387127932]
DiffRWKVIRは、効率的な拡散を伴うテスト時間トレーニング(TTT)を統合する新しいフレームワークである。
本手法は,ハードウェアの最適化による適応的,高効率な画像復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-06-17T14:01:59Z) - Two-Stage Random Alternation Framework for One-Shot Pansharpening [12.385955231193675]
本稿では,任意のマルチスペクトル(MS)/パンクロマティック(PAN)ペアに対して,インスタンス固有の最適化を行う2段階ランダム交互化フレームワーク(TRA-PAN)を提案する。
TRA-PANは、縮小解像度画像からの強い監督制約とフル解像度画像の物理的特性を効果的に統合する。
実験の結果,TRA-PANは実世界のシナリオにおいて,定量的な測定値と視覚的品質において,最先端(SOTA)手法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-10T09:26:22Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Gated Multi-Resolution Transfer Network for Burst Restoration and
Enhancement [75.25451566988565]
低画質の原画像のバーストから空間的精度の高い高画質画像を再構成する新しいGated Multi-Resolution Transfer Network (GMTNet)を提案する。
5つのデータセットに関する詳細な実験分析は、我々のアプローチを検証し、バースト超解像、バーストデノイング、低照度バーストエンハンスメントのための最先端技術を設定する。
論文 参考訳(メタデータ) (2023-04-13T17:54:00Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。