論文の概要: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- arxiv url: http://arxiv.org/abs/2412.05827v2
- Date: Sat, 08 Mar 2025 13:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.571577
- Title: Self-Guidance: Boosting Flow and Diffusion Generation on Their Own
- Title(参考訳): 自己誘導:自力で流れと拡散の発生を加速する
- Authors: Tiancheng Li, Weijian Luo, Zhiyang Chen, Liyuan Ma, Guo-Jun Qi,
- Abstract要約: 低品質サンプルの生成を抑えることで画質を向上させるセルフガイドを提案する。
安定拡散3.5やFLUXのようなオープンソースの拡散モデルでは、Self-Guidanceは既存のアルゴリズムを複数のメトリクスで上回る。
SGは、生理学的に正しい人体構造の生成に驚くほど良い効果があることがわかった。
- 参考スコア(独自算出の注目度): 32.91402070439289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proper guidance strategies are essential to achieve high-quality generation results without retraining diffusion and flow-based text-to-image models. Existing guidance either requires specific training or strong inductive biases of diffusion model networks, potentially limiting their applications. Motivated by the observation that artifact outliers can be detected by a significant decline in the density from a noisier to a cleaner noise level, we propose Self-Guidance (SG), which improves the image quality by suppressing the generation of low-quality samples. SG only relies on the sampling probabilities of its own diffusion model at different noise levels with no need of any guidance-specific training. This makes it flexible to be used in a plug-and-play manner with other sampling algorithms, maximizing its potential to achieve competitive performances in many generative tasks. We conduct experiments on text-to-image and text-to-video generation with different architectures, including UNet and transformer models. With open-sourced diffusion models such as Stable Diffusion 3.5 and FLUX, Self-Guidance surpasses existing algorithms on multiple metrics, including both FID and Human Preference Score. Moreover, we find that SG has a surprisingly positive effect on the generation of physiologically correct human body structures such as hands, faces, and arms, showing its ability of eliminating human body artifacts with minimal efforts. We will release our code along with this paper.
- Abstract(参考訳): 拡散モデルやフローベーステキスト・ツー・イメージモデルを再学習することなく高品質な生成結果を達成するためには,適切なガイダンス戦略が不可欠である。
既存のガイダンスは、特定のトレーニングまたは拡散モデルネットワークの強い誘導バイアスを必要とし、アプリケーションを制限する可能性がある。
ノイズレベルからよりクリーンなノイズレベルへの密度低下により, 人工物アウトリールが検出できることに感銘を受けて, 低品質サンプルの生成を抑制し, 画像品質を向上させるセルフガイド(SG)を提案する。
SGは、ガイダンス固有のトレーニングを必要とせず、異なるノイズレベルの拡散モデルのサンプリング確率にのみ依存する。
これにより、他のサンプリングアルゴリズムとプラグイン・アンド・プレイでの使用が柔軟になり、多くのジェネレーティブタスクにおいて競争性能を達成する可能性の最大化が図られる。
UNetやトランスフォーマーモデルなど,さまざまなアーキテクチャによるテキスト・ツー・イメージとテキスト・ツー・ビデオ生成の実験を行った。
安定拡散3.5やFLUXのようなオープンソースの拡散モデルでは、Self-GuidanceはFIDとHuman Preference Scoreを含む複数のメトリクスで既存のアルゴリズムを上回ります。
さらに、SGは、手、顔、腕などの生理学的に正しい人体構造の生成に驚くほど良い効果を示し、最小限の努力で人体人工物を除去する能力を示している。
私たちはこの論文と共にコードを公開します。
関連論文リスト
- DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech [42.663766380488205]
DIDiffGesは、いくつかのサンプリングステップだけで、高品質で表現力のあるジェスチャーを音声から合成することができる。
提案手法は, 人間の類似性, 適切性, スタイルの正しさにおいて, 最先端のアプローチよりも優れる。
論文 参考訳(メタデータ) (2025-03-21T11:23:39Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - TFG-Flow: Training-free Guidance in Multimodal Generative Flow [73.93071065307782]
本稿では,マルチモーダルな生成フローのためのトレーニング不要指導法TFG-Flowを紹介する。
TFG-Flowは、離散変数の導出において、非バイアスサンプリングの特性を維持しながら、次元の呪いに対処する。
TFG-Flowは, 所望の特性を持つ分子を生成することにより, 薬物設計において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-01-24T03:44:16Z) - Fast LiDAR Data Generation with Rectified Flows [3.297182592932918]
本稿では,LiDARデータの高速かつ高忠実な生成モデルであるR2Flowを提案する。
本手法は,直線軌道を学習する整流流に基づく。
また、LiDAR領域の画像表現と反射率測定を効率的に行うためのトランスフォーマーベースモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:10:53Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Unlocking the Power of GANs in Non-Autoregressive Text Generation [12.168952901520461]
NAR構造に基づく構築言語GANの先駆的研究を行う。
GANに基づく非自己回帰変換器(ANT)モデルを提案する。
実験の結果、ANTはメインストリームモデルと同等のパフォーマンスを単一のフォワードパスで達成できることが示された。
論文 参考訳(メタデータ) (2023-05-06T08:43:33Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - MagicFusion: Boosting Text-to-Image Generation Performance by Fusing
Diffusion Models [20.62953292593076]
本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) という,シンプルで効果的な手法を提案する。
SNBはトレーニングフリーであり、DDIMサンプリングプロセス内で完成することができる。さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整することができる。
論文 参考訳(メタデータ) (2023-03-23T09:30:39Z) - Diffusion Guided Domain Adaptation of Image Generators [22.444668833151677]
分類器フリーガイダンスを批判として活用し,大規模テキスト・画像拡散モデルから知識を抽出できることを示す。
ジェネレータは、ターゲットドメインからの基底サンプルにアクセスすることなく、テキストプロンプトによって示される新しいドメインに効率的に移動することができる。
CLIP損失を最小限に抑えるためにトレーニングされていないが、我々のモデルはCLIPスコアが等しく高く、FIDが短いプロンプトよりも大幅に低い。
論文 参考訳(メタデータ) (2022-12-08T18:46:19Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。