論文の概要: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- arxiv url: http://arxiv.org/abs/2412.05827v1
- Date: Sun, 08 Dec 2024 06:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:09.528534
- Title: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- Title(参考訳): 自己誘導:自力で流れと拡散の発生を加速する
- Authors: Tiancheng Li, Weijian Luo, Zhiyang Chen, Liyuan Ma, Guo-Jun Qi,
- Abstract要約: 自己ガイド(Self-Guidance, SG)は、特定のトレーニングやある種のニューラルネットワークアーキテクチャを必要としない、強力な拡散ガイダンスである。
安定拡散3.5やFLUXのような最先端拡散モデルでは、SGはFIDや人選スコアといった画像生成性能を大幅に向上させる。
SGは、手、顔、腕などの高品質な人体の生成に驚くほど良い効果があることがわかった。
- 参考スコア(独自算出の注目度): 32.91402070439289
- License:
- Abstract: Proper guidance strategies are essential to get optimal generation results without re-training diffusion and flow-based text-to-image models. However, existing guidances either require specific training or strong inductive biases of neural network architectures, potentially limiting their applications. To address these issues, in this paper, we introduce Self-Guidance (SG), a strong diffusion guidance that neither needs specific training nor requires certain forms of neural network architectures. Different from previous approaches, the Self-Guidance calculates the guidance vectors by measuring the difference between the velocities of two successive diffusion timesteps. Therefore, SG can be readily applied for both conditional and unconditional models with flexible network architectures. We conduct intensive experiments on both text-to-image generation and text-to-video generations across flexible architectures including UNet-based models and diffusion transformer-based models. On current state-of-the-art diffusion models such as Stable Diffusion 3.5 and FLUX, SG significantly boosts the image generation performance in terms of FID, and Human Preference Scores. Moreover, we find that SG has a surprisingly positive effect on the generation of high-quality human bodies such as hands, faces, and arms, showing strong potential to overcome traditional challenges on human body generations with minimal effort. We will release our implementation of SG on SD 3.5 and FLUX models along with this paper.
- Abstract(参考訳): 拡散とフローベースのテキスト・ツー・イメージモデルを再学習することなく、最適な生成結果を得るためには、適切なガイダンス戦略が不可欠である。
しかしながら、既存のガイダンスでは、特定のトレーニングか、ニューラルネットワークアーキテクチャの強い帰納バイアスを必要とし、アプリケーションを制限する可能性がある。
これらの問題に対処するために、本稿では、特定のトレーニングも特定のニューラルネットワークアーキテクチャの形式も必要としない、強力な拡散誘導であるSelf-Guidance(SG)を紹介する。
従来の手法と異なり、自己誘導は2つの連続拡散時間ステップの速度の差を測定して誘導ベクトルを計算する。
したがって、SGは柔軟なネットワークアーキテクチャを持つ条件付きモデルと条件なしモデルの両方に容易に適用できる。
我々は、UNetベースのモデルや拡散トランスフォーマーベースのモデルを含む柔軟なアーキテクチャにわたって、テキスト・ツー・イメージ・ジェネレーションとテキスト・ツー・ビデオ・ジェネレーションの両方を集中的に実験する。
安定拡散3.5やFLUXのような現在の最先端拡散モデルでは、SGはFIDやヒューマン・プレフレクションスコアの面で画像生成性能を大幅に向上させる。
さらに、SGは、手、顔、腕などの高品質な人体の生成に驚くほど良い効果を示し、最小限の努力で人体世代における従来の課題を克服する可能性を示している。
本稿では,SD 3.5およびFLUXモデル上でのSGの実装について述べる。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Fast LiDAR Data Generation with Rectified Flows [3.297182592932918]
本稿では,LiDARデータの高速かつ高忠実な生成モデルであるR2Flowを提案する。
本手法は,直線軌道を学習する整流流に基づく。
また、LiDAR領域の画像表現と反射率測定を効率的に行うためのトランスフォーマーベースモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:10:53Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unlocking the Power of GANs in Non-Autoregressive Text Generation [12.168952901520461]
NAR構造に基づく構築言語GANの先駆的研究を行う。
GANに基づく非自己回帰変換器(ANT)モデルを提案する。
実験の結果、ANTはメインストリームモデルと同等のパフォーマンスを単一のフォワードパスで達成できることが示された。
論文 参考訳(メタデータ) (2023-05-06T08:43:33Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。