論文の概要: FreeU: Free Lunch in Diffusion U-Net
- arxiv url: http://arxiv.org/abs/2309.11497v2
- Date: Wed, 18 Oct 2023 01:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:30:57.289091
- Title: FreeU: Free Lunch in Diffusion U-Net
- Title(参考訳): freeu:distribution u-netのフリーランチ
- Authors: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
- Abstract要約: 拡散U-Netは「フリーランチ」として機能し、フライ時の生成品質を大幅に向上させる。
本稿では,学習や微調整を伴わずに生成品質を向上させる手法"FreeU"を提案する。
- 参考スコア(独自算出の注目度): 48.31792165117768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we uncover the untapped potential of diffusion U-Net, which
serves as a "free lunch" that substantially improves the generation quality on
the fly. We initially investigate the key contributions of the U-Net
architecture to the denoising process and identify that its main backbone
primarily contributes to denoising, whereas its skip connections mainly
introduce high-frequency features into the decoder module, causing the network
to overlook the backbone semantics. Capitalizing on this discovery, we propose
a simple yet effective method-termed "FreeU" - that enhances generation quality
without additional training or finetuning. Our key insight is to strategically
re-weight the contributions sourced from the U-Net's skip connections and
backbone feature maps, to leverage the strengths of both components of the
U-Net architecture. Promising results on image and video generation tasks
demonstrate that our FreeU can be readily integrated to existing diffusion
models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion,
to improve the generation quality with only a few lines of code. All you need
is to adjust two scaling factors during inference. Project page:
https://chenyangsi.top/FreeU/.
- Abstract(参考訳): 本稿では,フライ時の生成品質を大幅に向上させる「フリーランチ」として機能する拡散U-Netの未発達の可能性を明らかにする。
我々はまず,u-netアーキテクチャのデノージングプロセスへの重要な貢献を調査し,その主バックボーンが主にデノージングに寄与していることを確認し,そのスキップ接続が主にデコーダモジュールに高周波機能を導入し,ネットワークがバックボーンセマンティクスを見落としてしまう原因となった。
この発見に乗じて,追加のトレーニングや微調整を行わずに生成品質を向上させる,単純かつ効果的な手法であるfreeuを提案する。
私たちの重要な洞察は、U-Netのスキップ接続とバックボーン機能マップから得られるコントリビューションを戦略的に再重み付けし、U-Netアーキテクチャの両コンポーネントの強みを活用することです。
画像およびビデオ生成タスクにおける結果の証明は、FreeUが既存の拡散モデル(例えば、Stable Diffusion、DreamBooth、ModelScope、Rerender、ReVersion)と容易に統合でき、コード数行で生成品質を向上できることを示している。
必要なのは、推論中に2つのスケーリング要素を調整することです。
プロジェクトページ: https://chenyangsi.top/freeu/
関連論文リスト
- Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - SCEdit: Efficient and Controllable Image Diffusion Generation via Skip
Connection Editing [18.508719350413802]
SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。
SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。
テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-12-18T17:54:14Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Exploring Vision Transformers as Diffusion Learners [15.32238726790633]
様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
論文 参考訳(メタデータ) (2022-12-28T10:32:59Z) - Gated Recurrent Unit for Video Denoising [5.515903319513226]
本稿では,映像復号化のためのゲートリカレント・ユニット(GRU)機構に基づく新しい映像復号化モデルを提案する。
実験の結果, GRU-VDネットワークは, 客観的かつ主観的に, 高い品質が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-17T14:34:54Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。