論文の概要: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- arxiv url: http://arxiv.org/abs/2412.05827v1
- Date: Sun, 08 Dec 2024 06:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:44.032955
- Title: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- Title(参考訳): 自己誘導:自力で流れと拡散の発生を加速する
- Authors: Tiancheng Li, Weijian Luo, Zhiyang Chen, Liyuan Ma, Guo-Jun Qi,
- Abstract要約: 自己ガイド(Self-Guidance, SG)は、特定のトレーニングやある種のニューラルネットワークアーキテクチャを必要としない、強力な拡散ガイダンスである。
安定拡散3.5やFLUXのような最先端拡散モデルでは、SGはFIDや人選スコアといった画像生成性能を大幅に向上させる。
SGは、手、顔、腕などの高品質な人体の生成に驚くほど良い効果があることがわかった。
- 参考スコア(独自算出の注目度): 32.91402070439289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proper guidance strategies are essential to get optimal generation results without re-training diffusion and flow-based text-to-image models. However, existing guidances either require specific training or strong inductive biases of neural network architectures, potentially limiting their applications. To address these issues, in this paper, we introduce Self-Guidance (SG), a strong diffusion guidance that neither needs specific training nor requires certain forms of neural network architectures. Different from previous approaches, the Self-Guidance calculates the guidance vectors by measuring the difference between the velocities of two successive diffusion timesteps. Therefore, SG can be readily applied for both conditional and unconditional models with flexible network architectures. We conduct intensive experiments on both text-to-image generation and text-to-video generations across flexible architectures including UNet-based models and diffusion transformer-based models. On current state-of-the-art diffusion models such as Stable Diffusion 3.5 and FLUX, SG significantly boosts the image generation performance in terms of FID, and Human Preference Scores. Moreover, we find that SG has a surprisingly positive effect on the generation of high-quality human bodies such as hands, faces, and arms, showing strong potential to overcome traditional challenges on human body generations with minimal effort. We will release our implementation of SG on SD 3.5 and FLUX models along with this paper.
- Abstract(参考訳): 拡散とフローベースのテキスト・ツー・イメージモデルを再学習することなく、最適な生成結果を得るためには、適切なガイダンス戦略が不可欠である。
しかしながら、既存のガイダンスでは、特定のトレーニングか、ニューラルネットワークアーキテクチャの強い帰納バイアスを必要とし、アプリケーションを制限する可能性がある。
これらの問題に対処するために、本稿では、特定のトレーニングも特定のニューラルネットワークアーキテクチャの形式も必要としない、強力な拡散誘導であるSelf-Guidance(SG)を紹介する。
従来の手法と異なり、自己誘導は2つの連続拡散時間ステップの速度の差を測定して誘導ベクトルを計算する。
したがって、SGは柔軟なネットワークアーキテクチャを持つ条件付きモデルと条件なしモデルの両方に容易に適用できる。
我々は、UNetベースのモデルや拡散トランスフォーマーベースのモデルを含む柔軟なアーキテクチャにわたって、テキスト・ツー・イメージ・ジェネレーションとテキスト・ツー・ビデオ・ジェネレーションの両方を集中的に実験する。
安定拡散3.5やFLUXのような現在の最先端拡散モデルでは、SGはFIDやヒューマン・プレフレクションスコアの面で画像生成性能を大幅に向上させる。
さらに、SGは、手、顔、腕などの高品質な人体の生成に驚くほど良い効果を示し、最小限の努力で人体世代における従来の課題を克服する可能性を示している。
本稿では,SD 3.5およびFLUXモデル上でのSGの実装について述べる。
関連論文リスト
- DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech [42.663766380488205]
DIDiffGesは、いくつかのサンプリングステップだけで、高品質で表現力のあるジェスチャーを音声から合成することができる。
提案手法は, 人間の類似性, 適切性, スタイルの正しさにおいて, 最先端のアプローチよりも優れる。
論文 参考訳(メタデータ) (2025-03-21T11:23:39Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - TFG-Flow: Training-free Guidance in Multimodal Generative Flow [73.93071065307782]
本稿では,マルチモーダルな生成フローのためのトレーニング不要指導法TFG-Flowを紹介する。
TFG-Flowは、離散変数の導出において、非バイアスサンプリングの特性を維持しながら、次元の呪いに対処する。
TFG-Flowは, 所望の特性を持つ分子を生成することにより, 薬物設計において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-01-24T03:44:16Z) - Fast LiDAR Data Generation with Rectified Flows [3.297182592932918]
本稿では,LiDARデータの高速かつ高忠実な生成モデルであるR2Flowを提案する。
本手法は,直線軌道を学習する整流流に基づく。
また、LiDAR領域の画像表現と反射率測定を効率的に行うためのトランスフォーマーベースモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:10:53Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Unlocking the Power of GANs in Non-Autoregressive Text Generation [12.168952901520461]
NAR構造に基づく構築言語GANの先駆的研究を行う。
GANに基づく非自己回帰変換器(ANT)モデルを提案する。
実験の結果、ANTはメインストリームモデルと同等のパフォーマンスを単一のフォワードパスで達成できることが示された。
論文 参考訳(メタデータ) (2023-05-06T08:43:33Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - MagicFusion: Boosting Text-to-Image Generation Performance by Fusing
Diffusion Models [20.62953292593076]
本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) という,シンプルで効果的な手法を提案する。
SNBはトレーニングフリーであり、DDIMサンプリングプロセス内で完成することができる。さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整することができる。
論文 参考訳(メタデータ) (2023-03-23T09:30:39Z) - Diffusion Guided Domain Adaptation of Image Generators [22.444668833151677]
分類器フリーガイダンスを批判として活用し,大規模テキスト・画像拡散モデルから知識を抽出できることを示す。
ジェネレータは、ターゲットドメインからの基底サンプルにアクセスすることなく、テキストプロンプトによって示される新しいドメインに効率的に移動することができる。
CLIP損失を最小限に抑えるためにトレーニングされていないが、我々のモデルはCLIPスコアが等しく高く、FIDが短いプロンプトよりも大幅に低い。
論文 参考訳(メタデータ) (2022-12-08T18:46:19Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。