論文の概要: Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets
- arxiv url: http://arxiv.org/abs/2508.21032v1
- Date: Thu, 28 Aug 2025 17:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.537415
- Title: Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets
- Title(参考訳): 画像集合の効率的な生成のためのテキスト・画像拡散における再利用計算
- Authors: Dale Decatur, Thibault Groueix, Wang Yifan, Rana Hanocka, Vladimir Kim, Matheus Gadelha,
- Abstract要約: 本稿では,初期拡散段階における意味的類似性と共有性に基づいてクラスタが促進する学習自由アプローチを提案する。
提案手法は,既存のパイプラインとシームレスに統合し,プロンプトセットでスケールし,大規模テキスト・画像生成の環境・経済的負担を軽減する。
- 参考スコア(独自算出の注目度): 19.950913420708734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/
- Abstract(参考訳): テキストと画像の拡散モデルは高品質な画像生成を可能にするが、計算コストが高い。
事前の作業は推論効率を最適化するが、直交アプローチとして、相関したプロンプト間の冗長性を減少させる。
本手法は拡散モデルの粗大な性質を生かし,初期のデノナイジングステップが類似のプロンプト間の共有構造を捕捉する。
本稿では,クラスタのセマンティックな類似性に基づいて,初期拡散段階における計算の共有を促進させる学習自由アプローチを提案する。
実験により, 画像埋め込みを訓練したモデルでは, 画像品質を向上しながら, 計算コストを大幅に削減できることがわかった。
UnClipのテキスト・ツー・イメージを前もって活用することにより,拡散ステップの割り当てを向上し,効率を向上する。
提案手法は,既存のパイプラインとシームレスに統合し,プロンプトセットでスケールし,大規模テキスト・画像生成の環境・経済的負担を軽減する。
プロジェクトページ: https://ddecatur.github.io/hierarchical-diffusion/
関連論文リスト
- Cost-Aware Routing for Efficient Text-To-Image Generation [19.848723289971208]
本稿では,その複雑さに応じて,各プロンプト毎に計算量を変動させるフレームワークを提案する。
私たちは、COCOとDiffusionDBで、すでに訓練された9つのテキスト・ツー・イメージモデルへのルートを学ぶことで、これらのモデルだけで達成可能な平均品質を提供することができることを実証的に示しています。
論文 参考訳(メタデータ) (2025-06-17T17:48:50Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。