論文の概要: Enhancing AI Face Realism: Cost-Efficient Quality Improvement in Distilled Diffusion Models with a Fully Synthetic Dataset
- arxiv url: http://arxiv.org/abs/2505.02255v1
- Date: Sun, 04 May 2025 21:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.511616
- Title: Enhancing AI Face Realism: Cost-Efficient Quality Improvement in Distilled Diffusion Models with a Fully Synthetic Dataset
- Title(参考訳): AIフェイスリアリズムの強化:完全合成データセットを用いた蒸留拡散モデルにおけるコスト効率の良い品質改善
- Authors: Jakub Wąsala, Bartłomiej Wrzalski, Kornelia Noculak, Yuliia Tarasenko, Oliwer Krupa, Jan Kocoń, Grzegorz Chodak,
- Abstract要約: 本研究では,拡散モデルによる画像生成のコスト対品質比を高める新しい手法を提案する。
我々は合成ペアデータセットを生成し、高速な画像から画像への変換ヘッドを訓練する。
以上の結果から, 大規模生成モデルの蒸留版と拡張層を組み合わせたパイプラインが, ベースライン版に類似したフォトリアリスティック・ポートレートを提供することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a novel approach to enhance the cost-to-quality ratio of image generation with diffusion models. We hypothesize that differences between distilled (e.g. FLUX.1-schnell) and baseline (e.g. FLUX.1-dev) models are consistent and, therefore, learnable within a specialized domain, like portrait generation. We generate a synthetic paired dataset and train a fast image-to-image translation head. Using two sets of low- and high-quality synthetic images, our model is trained to refine the output of a distilled generator (e.g., FLUX.1-schnell) to a level comparable to a baseline model like FLUX.1-dev, which is more computationally intensive. Our results show that the pipeline, which combines a distilled version of a large generative model with our enhancement layer, delivers similar photorealistic portraits to the baseline version with up to an 82% decrease in computational cost compared to FLUX.1-dev. This study demonstrates the potential for improving the efficiency of AI solutions involving large-scale image generation.
- Abstract(参考訳): 本研究では,拡散モデルによる画像生成のコスト対品質比を高める新しい手法を提案する。
蒸留(例えばFLUX.1-schnell)とベースライン(eg FLUX.1-dev)モデルの違いは一貫性があり、そのため、肖像画生成のような特殊な領域内で学習可能であると仮定する。
我々は合成ペアデータセットを生成し、高速な画像から画像への変換ヘッドを訓練する。
低画質合成画像と高画質合成画像の2つのセットを用いて、より計算集約的なFLUX.1-devのようなベースラインモデルに匹敵するレベルまで蒸留発電機(FLUX.1-schnell)の出力を洗練させる訓練を行った。
以上の結果から, 大規模生成モデルの蒸留版と拡張層を組み合わせたパイプラインは, FLUX.1-devに比べて最大82%の計算コストで, ベースライン版に類似のフォトリアリスティック・ポートレートを提供することがわかった。
本研究では,大規模画像生成を含むAIソリューションの効率性向上の可能性を示す。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [20.652907645817713]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。