論文の概要: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- arxiv url: http://arxiv.org/abs/2412.05827v2
- Date: Sat, 08 Mar 2025 13:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:48.843562
- Title: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- Title(参考訳): 自己誘導:自力で流れと拡散の発生を加速する
- Authors: Tiancheng Li, Weijian Luo, Zhiyang Chen, Liyuan Ma, Guo-Jun Qi,
- Abstract要約: 低品質サンプルの生成を抑えることで画質を向上させるセルフガイドを提案する。
安定拡散3.5やFLUXのようなオープンソースの拡散モデルでは、Self-Guidanceは既存のアルゴリズムを複数のメトリクスで上回る。
SGは、生理学的に正しい人体構造の生成に驚くほど良い効果があることがわかった。
- 参考スコア(独自算出の注目度): 32.91402070439289
- License:
- Abstract: Proper guidance strategies are essential to achieve high-quality generation results without retraining diffusion and flow-based text-to-image models. Existing guidance either requires specific training or strong inductive biases of diffusion model networks, potentially limiting their applications. Motivated by the observation that artifact outliers can be detected by a significant decline in the density from a noisier to a cleaner noise level, we propose Self-Guidance (SG), which improves the image quality by suppressing the generation of low-quality samples. SG only relies on the sampling probabilities of its own diffusion model at different noise levels with no need of any guidance-specific training. This makes it flexible to be used in a plug-and-play manner with other sampling algorithms, maximizing its potential to achieve competitive performances in many generative tasks. We conduct experiments on text-to-image and text-to-video generation with different architectures, including UNet and transformer models. With open-sourced diffusion models such as Stable Diffusion 3.5 and FLUX, Self-Guidance surpasses existing algorithms on multiple metrics, including both FID and Human Preference Score. Moreover, we find that SG has a surprisingly positive effect on the generation of physiologically correct human body structures such as hands, faces, and arms, showing its ability of eliminating human body artifacts with minimal efforts. We will release our code along with this paper.
- Abstract(参考訳): 拡散モデルやフローベーステキスト・ツー・イメージモデルを再学習することなく高品質な生成結果を達成するためには,適切なガイダンス戦略が不可欠である。
既存のガイダンスは、特定のトレーニングまたは拡散モデルネットワークの強い誘導バイアスを必要とし、アプリケーションを制限する可能性がある。
ノイズレベルからよりクリーンなノイズレベルへの密度低下により, 人工物アウトリールが検出できることに感銘を受けて, 低品質サンプルの生成を抑制し, 画像品質を向上させるセルフガイド(SG)を提案する。
SGは、ガイダンス固有のトレーニングを必要とせず、異なるノイズレベルの拡散モデルのサンプリング確率にのみ依存する。
これにより、他のサンプリングアルゴリズムとプラグイン・アンド・プレイでの使用が柔軟になり、多くのジェネレーティブタスクにおいて競争性能を達成する可能性の最大化が図られる。
UNetやトランスフォーマーモデルなど,さまざまなアーキテクチャによるテキスト・ツー・イメージとテキスト・ツー・ビデオ生成の実験を行った。
安定拡散3.5やFLUXのようなオープンソースの拡散モデルでは、Self-GuidanceはFIDとHuman Preference Scoreを含む複数のメトリクスで既存のアルゴリズムを上回ります。
さらに、SGは、手、顔、腕などの生理学的に正しい人体構造の生成に驚くほど良い効果を示し、最小限の努力で人体人工物を除去する能力を示している。
私たちはこの論文と共にコードを公開します。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Fast LiDAR Data Generation with Rectified Flows [3.297182592932918]
本稿では,LiDARデータの高速かつ高忠実な生成モデルであるR2Flowを提案する。
本手法は,直線軌道を学習する整流流に基づく。
また、LiDAR領域の画像表現と反射率測定を効率的に行うためのトランスフォーマーベースモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:10:53Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unlocking the Power of GANs in Non-Autoregressive Text Generation [12.168952901520461]
NAR構造に基づく構築言語GANの先駆的研究を行う。
GANに基づく非自己回帰変換器(ANT)モデルを提案する。
実験の結果、ANTはメインストリームモデルと同等のパフォーマンスを単一のフォワードパスで達成できることが示された。
論文 参考訳(メタデータ) (2023-05-06T08:43:33Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。