Fugu-MT 論文翻訳(概要): SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation

論文の概要: SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation

arxiv url: http://arxiv.org/abs/2312.05239v1
Date: Fri, 8 Dec 2023 18:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 14:14:17.500480
Title: SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation
Title（参考訳）: SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル
Authors: Thuan Hoang Nguyen, Anh Tran
Abstract要約: テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。 SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
参考スコア（独自算出の注目度）: 1.877515610186164
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.
Abstract（参考訳）: テキストプロンプトから高解像度で多様な画像を生成できるにもかかわらず、テキスト間拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。しかし, 従来の蒸留法では, 実データから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。入力プロンプトと整合する3dニューラルラジアンスフィールドを、特別な損失を伴わずに2dのテキストから画像への拡散から得ることができるテキストから3d合成へのインスピレーションを引き出す手法は、事前訓練された複数ステップのテキストから画像へのモデルを1つの推論ステップで高精細な画像を生成することができる学生ネットワークに蒸留するために同じ損失を再利用する。その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。

関連論文リスト

Enhancing AI Face Realism: Cost-Efficient Quality Improvement in Distilled Diffusion Models with a Fully Synthetic Dataset [2.6177855932435623]
本研究では,拡散モデルによる画像生成のコスト対品質比を高める新しい手法を提案する。我々は合成ペアデータセットを生成し、高速な画像から画像への変換ヘッドを訓練する。以上の結果から, 大規模生成モデルの蒸留版と拡張層を組み合わせたパイプラインが, ベースライン版に類似したフォトリアリスティック・ポートレートを提供することがわかった。
論文参考訳（メタデータ） (2025-05-04T21:28:21Z)
OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [20.652907645817713]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文参考訳（メタデータ） (2024-12-12T17:14:58Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation [41.88337159350505]
テキスト・ツー・イメージの拡散先を利用することにより、スコア蒸留は、ペアのテキスト3Dトレーニングデータなしで3Dコンテンツを合成することができる。現在のスコア蒸留法は、大量のテキストプロンプトまでスケールアップするのは難しい。本稿では,拡散時間ステップを先行値にシフトすることで,ノイズ予測誤差を最小限に抑える非同期スコア蒸留法を提案する。
論文参考訳（メタデータ） (2024-07-02T08:12:14Z)
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps [24.372192691537897]
本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。 Invertible Consistency Distillation (iCD) は,高画質な画像合成と高精度な画像符号化を,わずか3～4ステップで実現する,汎用的な一貫性蒸留フレームワークである。我々は、ダイナミックガイダンスを備えたiCDが、より高価な最先端の代替品と競合して、ゼロショットテキスト誘導画像編集の高効率ツールとして役立つことを実証した。
論文参考訳（メタデータ） (2024-06-20T17:49:11Z)
Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文参考訳（メタデータ） (2024-06-03T17:44:11Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-01T17:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。