論文の概要: Single Trajectory Distillation for Accelerating Image and Video Style Transfer
- arxiv url: http://arxiv.org/abs/2412.18945v1
- Date: Wed, 25 Dec 2024 16:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:33.106124
- Title: Single Trajectory Distillation for Accelerating Image and Video Style Transfer
- Title(参考訳): 画像と映像の移動促進のための単軌道蒸留法
- Authors: Sijie Xu, Runqi Wang, Wei Zhu, Dejia Song, Nemo Chen, Xu Tang, Yao Hu,
- Abstract要約: 拡散に基づくスタイリング手法は、通常、イメージ・ツー・イメージやビデオ・ツー・ビデオのタスクにおいて、特定の部分的なノイズ状態から逸脱する。
特定部分雑音状態から始まる単一軌道蒸留(STD)を提案する。
提案手法は,スタイルの類似性や美的評価の観点から,既存の加速度モデルを超えている。
- 参考スコア(独自算出の注目度): 22.304420035048942
- License:
- Abstract: Diffusion-based stylization methods typically denoise from a specific partial noise state for image-to-image and video-to-video tasks. This multi-step diffusion process is computationally expensive and hinders real-world application. A promising solution to speed up the process is to obtain few-step consistency models through trajectory distillation. However, current consistency models only force the initial-step alignment between the probability flow ODE (PF-ODE) trajectories of the student and the imperfect teacher models. This training strategy can not ensure the consistency of whole trajectories. To address this issue, we propose single trajectory distillation (STD) starting from a specific partial noise state. We introduce a trajectory bank to store the teacher model's trajectory states, mitigating the time cost during training. Besides, we use an asymmetric adversarial loss to enhance the style and quality of the generated images. Extensive experiments on image and video stylization demonstrate that our method surpasses existing acceleration models in terms of style similarity and aesthetic evaluations. Our code and results will be available on the project page: https://single-trajectory-distillation.github.io.
- Abstract(参考訳): 拡散に基づくスタイリング手法は、通常、イメージ・ツー・イメージやビデオ・ツー・ビデオのタスクにおいて、特定の部分的なノイズ状態から逸脱する。
この多段階拡散プロセスは計算コストが高く、現実世界の応用を妨げる。
プロセスの高速化のための有望な解決策は、軌道蒸留により数段階の整合性モデルを得ることである。
しかしながら、現在の一貫性モデルは、学生の確率フローODE(PF-ODE)軌道と不完全な教師モデルとの間の最初のステップアライメントのみを強制する。
このトレーニング戦略は、全軌道の整合性を保証することができない。
この問題に対処するために,特定部分雑音状態から始まる単一軌道蒸留(STD)を提案する。
本研究では,教師モデルの軌道状態を保存するためのトラジェクティブバンクを導入し,トレーニングの時間的コストを軽減した。
さらに、非対称な対向損失を用いて、生成された画像のスタイルと品質を向上させる。
画像およびビデオのスタイリゼーションに関する大規模な実験により,本手法はスタイルの類似性や美的評価の観点から,既存の加速度モデルを超えていることが示された。
私たちのコードと結果はプロジェクトのページで公開されます。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Distribution Backtracking Builds A Faster Convergence Trajectory for Diffusion Distillation [19.88187051373436]
本研究では,拡散モデルのサンプリング速度を高速化する分散バックトラック蒸留(DisBack)を提案する。
DisBackは既存の蒸留法よりも高速で収束性が高く、ImageNet 64x64データセットのFIDスコアは1.38である。
論文 参考訳(メタデータ) (2024-08-28T17:58:17Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。