論文の概要: ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.12640v1
- Date: Fri, 13 Feb 2026 05:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.861224
- Title: ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models
- Title(参考訳): ImageRAGTurbo:検索拡張拡散モデルによる1段階のテキスト・ツー・イメージ生成を目指して
- Authors: Peijie Qiu, Hariharan Ramshankar, Arnau Ramisa, René Vidal, Amit Kumar K C, Vamsi Salaka, Rahul Bhagat,
- Abstract要約: 本稿では,画像RAGTurboを提案する。
テキストプロンプトが与えられた場合、関連するテキストイメージペアをデータベースから取得し、それらを生成プロセスの条件付けに使用する。
実験の結果,提案手法は既存の手法と比較して遅延を伴わずに高忠実度画像を生成することがわかった。
- 参考スコア(独自算出の注目度): 33.09645476860831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as the leading approach for text-to-image generation. However, their iterative sampling process, which gradually morphs random noise into coherent images, introduces significant latency that limits their applicability. While recent few-step diffusion models reduce the number of sampling steps to as few as one to four steps, they often compromise image quality and prompt alignment, especially in one-step generation. Additionally, these models require computationally expensive training procedures. To address these limitations, we propose ImageRAGTurbo, a novel approach to efficiently finetune few-step diffusion models via retrieval augmentation. Given a text prompt, we retrieve relevant text-image pairs from a database and use them to condition the generation process. We argue that such retrieved examples provide rich contextual information to the UNet denoiser that helps reduce the number of denoising steps without compromising image quality. Indeed, our initial investigations show that using the retrieved content to edit the denoiser's latent space ($\mathcal{H}$-space) without additional finetuning already improves prompt fidelity. To further improve the quality of the generated images, we augment the UNet denoiser with a trainable adapter in the $\mathcal{H}$-space, which efficiently blends the retrieved content with the target prompt using a cross-attention mechanism. Experimental results on fast text-to-image generation demonstrate that our approach produces high-fidelity images without compromising latency compared to existing methods.
- Abstract(参考訳): 拡散モデルは、テキスト・画像生成の主要なアプローチとして現れている。
しかし、ランダムノイズをコヒーレントな画像に徐々に変化させる反復サンプリングプロセスでは、適用性を制限する大きな遅延が発生する。
最近の数ステップの拡散モデルではサンプリングステップの数を1段階から4段階に減らしているが、画像の品質と迅速なアライメント、特にワンステップ生成を妥協することが多い。
さらに、これらのモデルは計算に高価な訓練手順を必要とする。
これらの制約に対処するため,画像RAGTurboを提案する。
テキストプロンプトが与えられた場合、関連するテキストイメージペアをデータベースから取得し、それらを生成プロセスの条件付けに使用する。
画像の品質を損なうことなくデノナイズステップの数を減らし,ユネットデノネイザにリッチなコンテキスト情報を提供することを論じる。
実際、我々は、検索したコンテンツを使ってデノイザの潜在空間(\mathcal{H}$-space)を追加の微調整なしで編集することが、既に即時忠実性を改善することを示した。
生成した画像の品質をさらに向上するため、$\mathcal{H}$-spaceのトレーニング可能なアダプタでUNet denoiserを拡張し、検索したコンテンツをクロスアテンション機構を用いてターゲットプロンプトと効率的にブレンドする。
高速テキスト・画像生成実験の結果,提案手法は既存の手法と比較して遅延を伴わずに高忠実度画像を生成することが示された。
関連論文リスト
- Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets [19.950913420708734]
本稿では,初期拡散段階における意味的類似性と共有性に基づいてクラスタが促進する学習自由アプローチを提案する。
提案手法は,既存のパイプラインとシームレスに統合し,プロンプトセットでスケールし,大規模テキスト・画像生成の環境・経済的負担を軽減する。
論文 参考訳(メタデータ) (2025-08-28T17:35:03Z) - Cost-Aware Routing for Efficient Text-To-Image Generation [19.848723289971208]
本稿では,その複雑さに応じて,各プロンプト毎に計算量を変動させるフレームワークを提案する。
私たちは、COCOとDiffusionDBで、すでに訓練された9つのテキスト・ツー・イメージモデルへのルートを学ぶことで、これらのモデルだけで達成可能な平均品質を提供することができることを実証的に示しています。
論文 参考訳(メタデータ) (2025-06-17T17:48:50Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。