Fugu-MT 論文翻訳(概要): Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

論文の概要: Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

arxiv url: http://arxiv.org/abs/2404.13686v3
Date: Mon, 04 Nov 2024 13:24:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.980998
Title: Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
Title（参考訳）: Hyper-SD:効率的な画像合成のための軌道分割一貫性モデル
Authors: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao,
Abstract要約: Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
参考スコア（独自算出の注目度）: 20.2271205957037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.
Abstract（参考訳）: 近年,拡散モデル(DM)の多段階推論プロセスに伴う計算オーバーヘッドを軽減するために,拡散対応蒸留アルゴリズムが出現している。現在の蒸留技術は、しばしば2つの異なる側面に二分される。一腺軌道保存二 ODE軌道の改定しかし、これらのアプローチは厳しいパフォーマンス劣化やドメインシフトに悩まされる。これらの制約に対処するため,ステップ圧縮時にほぼ無作為な性能を維持しつつ,ODEトラジェクトリ保存と改革の利点を相乗的に満たす新しいフレームワークであるHyper-SDを提案する。まず, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入し, 高次視点からのオリジナルODEトラジェクトリの保存を容易にし, あらかじめ定義された時間ステップセグメント内で一貫した蒸留を行う。第2に,人間のフィードバック学習を取り入れて,低段階のシステムにおけるモデルの性能向上と,蒸留プロセスによって生じる性能損失の軽減を図る。第3に,モデルの低ステップ生成能力を向上するためにスコア蒸留を統合し,全てのステップで推論プロセスをサポートするために,統一されたLoRAを活用するための最初の試みを提供する。大規模な実験とユーザスタディにより、Hyper-SDはSDXLとSD1.5の両方で1から8の推論ステップでSOTA性能を達成することが示された。例えば、Hyper-SDXLはCLIP Scoreで+0.68、Aes Scoreで+0.51、SDXL-Lightningで+0.68を上回っている。

関連論文リスト

Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals [48.14879329270912]
フェーズドDMDは、Mixture-of-Expertsでフェーズワイド蒸留のアイデアを橋渡しする多段階蒸留フレームワークである。位相MDDはプログレッシブな分布マッチングとサブインターバル内のスコアマッチングという2つの主要なアイデアに基づいて構築されている。実験結果から,第2相DMDはDMDよりも出力の多様性を保ちつつ,重要な生成能力を保っていることが明らかとなった。
論文参考訳（メタデータ） (2025-10-31T17:55:10Z)
Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。 SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文参考訳（メタデータ） (2025-07-24T16:45:05Z)
Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。 RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文参考訳（メタデータ） (2025-05-19T17:21:03Z)
Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文参考訳（メタデータ） (2024-05-27T05:55:22Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。 SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文参考訳（メタデータ） (2024-04-05T12:30:19Z)
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation [24.236841051249243]
蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。 ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
論文参考訳（メタデータ） (2024-03-18T17:51:43Z)
Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文参考訳（メタデータ） (2023-11-28T18:53:24Z)
SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:21:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。