論文の概要: BudgetFusion: Perceptually-Guided Adaptive Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.05780v3
- Date: Mon, 23 Dec 2024 11:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:21.025890
- Title: BudgetFusion: Perceptually-Guided Adaptive Diffusion Models
- Title(参考訳): BudgetFusion: 知覚誘導型適応拡散モデル
- Authors: Qinchan Li, Kenneth Chen, Changyue Su, Qi Sun,
- Abstract要約: 拡散モデルが画像を生成する前に最も知覚的に効率的な拡散ステップ数を示す新しいモデルであるBudgetFusionを提案する。
実験の結果、BudgetFusionは知覚的類似性を損なうことなく、1プロンプトあたり最大5秒節約できることがわかった。
私たちは、この研究が核となる疑問に答えるための努力を始めることを願っている。
- 参考スコア(独自算出の注目度): 15.293203074854267
- License:
- Abstract: Diffusion models have shown unprecedented success in the task of text-to-image generation. While these models are capable of generating high-quality and realistic images, the complexity of sequential denoising has raised societal concerns regarding high computational demands and energy consumption. In response, various efforts have been made to improve inference efficiency. However, most of the existing efforts have taken a fixed approach with neural network simplification or text prompt optimization. Are the quality improvements from all denoising computations equally perceivable to humans? We observed that images from different text prompts may require different computational efforts given the desired content. The observation motivates us to present BudgetFusion, a novel model that suggests the most perceptually efficient number of diffusion steps before a diffusion model starts to generate an image. This is achieved by predicting multi-level perceptual metrics relative to diffusion steps. With the popular Stable Diffusion as an example, we conduct both numerical analyses and user studies. Our experiments show that BudgetFusion saves up to five seconds per prompt without compromising perceptual similarity. We hope this work can initiate efforts toward answering a core question: how much do humans perceptually gain from images created by a generative model, per watt of energy?
- Abstract(参考訳): 拡散モデルはテキスト・画像生成のタスクにおいて前例のない成功を収めた。
これらのモデルは高品質でリアルな画像を生成することができるが、逐次認知の複雑さは、高い計算要求とエネルギー消費に関する社会的関心を高めている。
これに対し、推論効率を改善するために様々な取り組みがなされている。
しかし、既存の取り組みのほとんどは、ニューラルネットワークの単純化やテキストプロンプト最適化による固定的なアプローチを取っている。
品質改善は、人間に等しく知覚できる全てのデノナイジング計算から得られるか?
我々は,異なるテキストプロンプトから得られる画像は,所望のコンテンツから異なる計算作業を必要とする可能性があることを観察した。
BudgetFusionは、拡散モデルが画像を生成する前に、最も知覚的に効率的な拡散ステップ数を示す新しいモデルである。
これは拡散ステップに対して多レベルの知覚的メトリクスを予測することで達成される。
一般的な安定拡散を例として、数値解析とユーザスタディの両方を行う。
実験の結果,BudgetFusionは知覚的類似性を損なうことなく1プロンプトあたり最大5秒節約できることがわかった。
私たちは、この研究が核となる疑問に答えるための努力を始めることを願っている。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。