論文の概要: Single Trajectory Distillation for Accelerating Image and Video Style Transfer
- arxiv url: http://arxiv.org/abs/2412.18945v1
- Date: Wed, 25 Dec 2024 16:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:33.106124
- Title: Single Trajectory Distillation for Accelerating Image and Video Style Transfer
- Title(参考訳): 画像と映像の移動促進のための単軌道蒸留法
- Authors: Sijie Xu, Runqi Wang, Wei Zhu, Dejia Song, Nemo Chen, Xu Tang, Yao Hu,
- Abstract要約: 拡散に基づくスタイリング手法は、通常、イメージ・ツー・イメージやビデオ・ツー・ビデオのタスクにおいて、特定の部分的なノイズ状態から逸脱する。
特定部分雑音状態から始まる単一軌道蒸留(STD)を提案する。
提案手法は,スタイルの類似性や美的評価の観点から,既存の加速度モデルを超えている。
- 参考スコア(独自算出の注目度): 22.304420035048942
- License:
- Abstract: Diffusion-based stylization methods typically denoise from a specific partial noise state for image-to-image and video-to-video tasks. This multi-step diffusion process is computationally expensive and hinders real-world application. A promising solution to speed up the process is to obtain few-step consistency models through trajectory distillation. However, current consistency models only force the initial-step alignment between the probability flow ODE (PF-ODE) trajectories of the student and the imperfect teacher models. This training strategy can not ensure the consistency of whole trajectories. To address this issue, we propose single trajectory distillation (STD) starting from a specific partial noise state. We introduce a trajectory bank to store the teacher model's trajectory states, mitigating the time cost during training. Besides, we use an asymmetric adversarial loss to enhance the style and quality of the generated images. Extensive experiments on image and video stylization demonstrate that our method surpasses existing acceleration models in terms of style similarity and aesthetic evaluations. Our code and results will be available on the project page: https://single-trajectory-distillation.github.io.
- Abstract(参考訳): 拡散に基づくスタイリング手法は、通常、イメージ・ツー・イメージやビデオ・ツー・ビデオのタスクにおいて、特定の部分的なノイズ状態から逸脱する。
この多段階拡散プロセスは計算コストが高く、現実世界の応用を妨げる。
プロセスの高速化のための有望な解決策は、軌道蒸留により数段階の整合性モデルを得ることである。
しかしながら、現在の一貫性モデルは、学生の確率フローODE(PF-ODE)軌道と不完全な教師モデルとの間の最初のステップアライメントのみを強制する。
このトレーニング戦略は、全軌道の整合性を保証することができない。
この問題に対処するために,特定部分雑音状態から始まる単一軌道蒸留(STD)を提案する。
本研究では,教師モデルの軌道状態を保存するためのトラジェクティブバンクを導入し,トレーニングの時間的コストを軽減した。
さらに、非対称な対向損失を用いて、生成された画像のスタイルと品質を向上させる。
画像およびビデオのスタイリゼーションに関する大規模な実験により,本手法はスタイルの類似性や美的評価の観点から,既存の加速度モデルを超えていることが示された。
私たちのコードと結果はプロジェクトのページで公開されます。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [20.652907645817713]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Distribution Backtracking Builds A Faster Convergence Trajectory for Diffusion Distillation [19.88187051373436]
本研究では,拡散モデルのサンプリング速度を高速化する分散バックトラック蒸留(DisBack)を提案する。
DisBackは既存の蒸留法よりも高速で収束性が高く、ImageNet 64x64データセットのFIDスコアは1.38である。
論文 参考訳(メタデータ) (2024-08-28T17:58:17Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。