論文の概要: ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization
- arxiv url: http://arxiv.org/abs/2406.04312v2
- Date: Thu, 31 Oct 2024 17:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:33.264129
- Title: ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization
- Title(参考訳): ReNO: 逆方向雑音最適化によるワンステップテキスト・ツー・イメージモデルの実現
- Authors: Luca Eyring, Shyamgopal Karthik, Karsten Roth, Alexey Dosovitskiy, Zeynep Akata,
- Abstract要約: 本稿では,Reward-based Noise Optimization (ReNO) を提案する。
20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
- 参考スコア(独自算出の注目度): 59.72782742378666
- License:
- Abstract: Text-to-Image (T2I) models have made significant advancements in recent years, but they still struggle to accurately capture intricate details specified in complex compositional prompts. While fine-tuning T2I models with reward objectives has shown promise, it suffers from "reward hacking" and may not generalize well to unseen prompt distributions. In this work, we propose Reward-based Noise Optimization (ReNO), a novel approach that enhances T2I models at inference by optimizing the initial noise based on the signal from one or multiple human preference reward models. Remarkably, solving this optimization problem with gradient ascent for 50 iterations yields impressive results on four different one-step models across two competitive benchmarks, T2I-CompBench and GenEval. Within a computational budget of 20-50 seconds, ReNO-enhanced one-step models consistently surpass the performance of all current open-source Text-to-Image models. Extensive user studies demonstrate that our model is preferred nearly twice as often compared to the popular SDXL model and is on par with the proprietary Stable Diffusion 3 with 8B parameters. Moreover, given the same computational resources, a ReNO-optimized one-step model outperforms widely-used open-source models such as SDXL and PixArt-$\alpha$, highlighting the efficiency and effectiveness of ReNO in enhancing T2I model performance at inference time. Code is available at https://github.com/ExplainableML/ReNO.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは近年大きな進歩を遂げているが、複雑な合成プロンプトで特定された複雑な詳細を正確に捉えるのに苦慮している。
報酬目標を持つ微調整のT2Iモデルは、将来性を示しているが、"逆ハック"に悩まされており、見当たらないプロンプト分布にうまく一般化できない可能性がある。
本研究では,T2Iモデルを推論時に拡張する新しい手法であるReward-based Noise Optimization (ReNO)を提案する。
注目すべきは、50イテレーションの勾配上昇によるこの最適化問題を解くことで、2つの競合ベンチマークであるT2I-CompBenchとGenEvalの4つの異なる1ステップモデルに対する印象的な結果が得られることだ。
20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
広汎なユーザスタディにより、我々のモデルは一般的なSDXLモデルに比べて約2倍の頻度で好まれており、8Bパラメータを持つStable Diffusion 3と同等であることが示された。
さらに、同じ計算資源が与えられた場合、ReNO最適化ワンステップモデルはSDXLやPixArt-$\alpha$のような広く使われているオープンソースモデルよりも優れており、推論時のT2Iモデル性能の向上におけるReNOの有効性と有効性を強調している。
コードはhttps://github.com/ExplainableML/ReNO.comで入手できる。
関連論文リスト
- SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet [24.62661549442265]
我々は,Omni-sparsity DNNを提案する。そこでは,1つのニューラルネットワークを切断して,広範囲のモデルサイズに対して最適化されたモデルを生成する。
以上の結果から,LibriSpeechのトレーニング時間とリソースの保存時間は,個別のプルーニングモデルと比較すると,類似あるいは精度がよいことがわかった。
論文 参考訳(メタデータ) (2021-10-15T20:28:27Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。