論文の概要: Cost-Aware Routing for Efficient Text-To-Image Generation
- arxiv url: http://arxiv.org/abs/2506.14753v1
- Date: Tue, 17 Jun 2025 17:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.59765
- Title: Cost-Aware Routing for Efficient Text-To-Image Generation
- Title(参考訳): 効率的なテキスト・画像生成のためのコスト・アウェア・ルーティング
- Authors: Qinchan, Li, Kenneth Chen, Changyue, Su, Wittawat Jitkrittum, Qi Sun, Patsorn Sangkloy,
- Abstract要約: 本稿では,その複雑さに応じて,各プロンプト毎に計算量を変動させるフレームワークを提案する。
私たちは、COCOとDiffusionDBで、すでに訓練された9つのテキスト・ツー・イメージモデルへのルートを学ぶことで、これらのモデルだけで達成可能な平均品質を提供することができることを実証的に示しています。
- 参考スコア(独自算出の注目度): 18.590246543551125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are well known for their ability to generate a high-fidelity image for an input prompt through an iterative denoising process. Unfortunately, the high fidelity also comes at a high computational cost due the inherently sequential generative process. In this work, we seek to optimally balance quality and computational cost, and propose a framework to allow the amount of computation to vary for each prompt, depending on its complexity. Each prompt is automatically routed to the most appropriate text-to-image generation function, which may correspond to a distinct number of denoising steps of a diffusion model, or a disparate, independent text-to-image model. Unlike uniform cost reduction techniques (e.g., distillation, model quantization), our approach achieves the optimal trade-off by learning to reserve expensive choices (e.g., 100+ denoising steps) only for a few complex prompts, and employ more economical choices (e.g., small distilled model) for less sophisticated prompts. We empirically demonstrate on COCO and DiffusionDB that by learning to route to nine already-trained text-to-image models, our approach is able to deliver an average quality that is higher than that achievable by any of these models alone.
- Abstract(参考訳): 拡散モデルは、反復デノナイジングプロセスを通じて入力プロンプトのための高忠実度画像を生成する能力でよく知られている。
残念なことに、高忠実度は本質的にシーケンシャルな生成プロセスのため、計算コストも高い。
本研究では,計算コストと品質を最適にバランスさせ,その複雑さに応じて各プロンプト毎に計算量を変動させるフレームワークを提案する。
それぞれのプロンプトは最も適切なテキスト・ツー・イメージ生成関数に自動的にルーティングされます。
均一なコスト削減技術(蒸留、モデル量子化など)とは異なり、我々の手法は、いくつかの複雑なプロンプトに対してのみ高価な選択(例えば、100以上のデノナイジングステップ)を予約し、より洗練されたプロンプトのためにより経済的な選択(例えば、小型蒸留モデル)を採用することで、最適なトレードオフを達成する。
私たちは、COCOとDiffusionDBで、すでに訓練された9つのテキスト・ツー・イメージモデルへのルートを学ぶことで、これらのモデルだけで達成可能な平均品質を提供することができることを実証的に示しています。
関連論文リスト
- FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute [25.151209708074134]
当社のフレームワークでは、事前トレーニングされたDiTモデルを、FlexiDiTと呼ばれる、屈曲可能なモデルに変換することが可能です。
本研究では,単一のエンフレキシブルモデルが画質の低下を伴わずに画像を生成する方法を示す。
我々は、FlexiDiTモデルが最大7,5$%の計算量でサンプルを生成するビデオ生成のために、我々のアプローチをどのように簡単に拡張できるかを示す。
論文 参考訳(メタデータ) (2025-02-27T14:16:56Z) - Prompt-Aware Scheduling for Efficient Text-to-Image Inferencing System [6.305230222189566]
本研究は,様々な近似レベルで動作している同一モデルの複数インスタンス間のプロンプトを最適に一致させて,高負荷および固定予算下で高品質な画像を提供する,新しいテキスト・ツー・イメージ推論システムを提案する。
論文 参考訳(メタデータ) (2025-01-29T03:17:48Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Step Saver: Predicting Minimum Denoising Steps for Diffusion Model Image Generation [0.6906005491572401]
本稿では,任意のテキストプロンプトに必要な最小ステップ数を決定するために,革新的なNLPモデルを提案する。
Diffusionモデルとシームレスに動作するように設計されており、可能な限り短時間で画像が優れた品質で生成されることを保証している。
論文 参考訳(メタデータ) (2024-08-04T15:01:23Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。