論文の概要: Argus: Quality-Aware High-Throughput Text-to-Image Inference Serving System
- arxiv url: http://arxiv.org/abs/2511.06724v1
- Date: Mon, 10 Nov 2025 05:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.092835
- Title: Argus: Quality-Aware High-Throughput Text-to-Image Inference Serving System
- Title(参考訳): Argus:品質に配慮した高速テキスト・画像推論サービングシステム
- Authors: Shubham Agarwal, Subrata Mitra, Saud Iqbal,
- Abstract要約: Argusは、各プロンプトが品質を維持するための適切なレベルの近似を選択する推論システムである。
レイテンシサービスレベルの目標(SLO)違反が10倍少なくなり、平均品質が10%向上し、ベースラインよりも40%高いスループットを実現している。
- 参考スコア(独自算出の注目度): 6.05225050953377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models have gained significant popularity. Most of these are diffusion models with unique computational characteristics, distinct from both traditional small-scale ML models and large language models. They are highly compute-bound and use an iterative denoising process to generate images, leading to very high inference time. This creates significant challenges in designing a high-throughput system. We discovered that a large fraction of prompts can be served using faster, approximated models. However, the approximation setting must be carefully calibrated for each prompt to avoid quality degradation. Designing a high-throughput system that assigns each prompt to the appropriate model and compatible approximation setting remains a challenging problem. We present Argus, a high-throughput T2I inference system that selects the right level of approximation for each prompt to maintain quality while meeting throughput targets on a fixed-size cluster. Argus intelligently switches between different approximation strategies to satisfy both throughput and quality requirements. Overall, Argus achieves 10x fewer latency service-level objective (SLO) violations, 10% higher average quality, and 40% higher throughput compared to baselines on two real-world workload traces.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは大きな人気を集めている。
これらの多くは、伝統的な小規模MLモデルと大規模言語モデルとは異なる、ユニークな計算特性を持つ拡散モデルである。
それらは高い計算バウンドであり、反復的なデノナイジングプロセスを使用して画像を生成するため、非常に高い推論時間が得られる。
これにより、高スループットシステムを設計する上で大きな課題が生じる。
より高速で近似されたモデルを用いて、プロンプトのかなりの部分が提供できることを発見した。
しかしながら、近似設定は、品質劣化を避けるために各プロンプトに対して慎重に調整されなければならない。
それぞれのプロンプトを適切なモデルに割り当て、互換性のある近似設定を割り当てる高スループットシステムの設計は、依然として難しい問題である。
本稿では,高スループットなT2I推論システムであるArgusについて述べる。
Argusはスループットと品質要件の両方を満たすために、さまざまな近似戦略をインテリジェントに切り替える。
全体として、Argusは10倍のレイテンシサービスレベル目標(SLO)違反、平均品質10%、実際の2つのワークロードトレースのベースラインと比較して40%高いスループットを実現している。
関連論文リスト
- Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - Cost-Aware Routing for Efficient Text-To-Image Generation [19.848723289971208]
本稿では,その複雑さに応じて,各プロンプト毎に計算量を変動させるフレームワークを提案する。
私たちは、COCOとDiffusionDBで、すでに訓練された9つのテキスト・ツー・イメージモデルへのルートを学ぶことで、これらのモデルだけで達成可能な平均品質を提供することができることを実証的に示しています。
論文 参考訳(メタデータ) (2025-06-17T17:48:50Z) - Prompt-Aware Scheduling for Efficient Text-to-Image Inferencing System [6.305230222189566]
本研究は,様々な近似レベルで動作している同一モデルの複数インスタンス間のプロンプトを最適に一致させて,高負荷および固定予算下で高品質な画像を提供する,新しいテキスト・ツー・イメージ推論システムを提案する。
論文 参考訳(メタデータ) (2025-01-29T03:17:48Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Models [46.58122934173729]
textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
論文 参考訳(メタデータ) (2024-02-27T11:05:34Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。