論文の概要: Phased Consistency Model
- arxiv url: http://arxiv.org/abs/2405.18407v1
- Date: Tue, 28 May 2024 17:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:20:57.766507
- Title: Phased Consistency Model
- Title(参考訳): Phased Consistency Model
- Authors: Fu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang,
- Abstract要約: 一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。
しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。
本稿では、設計空間を一般化し、特定されたすべての制約に対処する位相整合モデル(PCM)を提案する。
- 参考スコア(独自算出の注目度): 80.31766777570058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The consistency model (CM) has recently made significant progress in accelerating the generation of diffusion models. However, its application to high-resolution, text-conditioned image generation in the latent space (a.k.a., LCM) remains unsatisfactory. In this paper, we identify three key flaws in the current design of LCM. We investigate the reasons behind these limitations and propose the Phased Consistency Model (PCM), which generalizes the design space and addresses all identified limitations. Our evaluations demonstrate that PCM significantly outperforms LCM across 1--16 step generation settings. While PCM is specifically designed for multi-step refinement, it achieves even superior or comparable 1-step generation results to previously state-of-the-art specifically designed 1-step methods. Furthermore, we show that PCM's methodology is versatile and applicable to video generation, enabling us to train the state-of-the-art few-step text-to-video generator. More details are available at https://g-u-n.github.io/projects/pcm/.
- Abstract(参考訳): 一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。
しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。
本稿では,LCMの現在の設計における3つの重要な欠陥を同定する。
これらの制約の背後にある理由を考察し、設計空間を一般化し、特定されたすべての制限に対処する位相整合モデル(PCM)を提案する。
評価の結果,PCMは1段階から16段階のステップ生成設定でLCMを著しく上回っていることがわかった。
PCMはマルチステップの改良のために特別に設計されているが、従来は最先端の1ステップで設計されていた方法よりも優れた、あるいは同等の1ステップ生成結果が得られる。
さらに,PCMの手法がビデオ生成に適用可能であることを示し,最先端のテキスト・ツー・ビデオ・ジェネレータを訓練することができることを示した。
詳細はhttps://g-u-n.github.io/projects/pcm/で確認できる。
関連論文リスト
- Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Flow Generator Matching [35.371071097381346]
フロージェネレータマッチング(FGM)は、フローマッチングモデルのサンプリングをワンステップ生成に高速化するように設計されている。
CIFAR10の非条件生成ベンチマークでは、1段階のFGMモデルが新たなFr'echet Inception Distance(FID)スコア3.08を達成した。
MM-DiT-FGMワンステップテキスト・ツー・イメージモデルでは,業界レベルでの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-25T05:41:28Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - CCDM: Continuous Conditional Diffusion Models for Image Generation [22.70942688582302]
連続条件生成モデリング(CCGM)は、スカラー連続変数に基づく高次元データ(典型的には画像)の分布を推定することを目的としている。
既存のConditional Adversarial Networks (CcGANs) は、当初、このタスクのために設計されていたが、その逆のトレーニングメカニズムは、非常にスパースなデータや不均衡なデータに対して脆弱なままである。
生成画像の品質を高めるために、CcGANを条件拡散モデル(CDM)に置き換えることが有望な方法である。
論文 参考訳(メタデータ) (2024-05-06T15:10:19Z) - EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。
我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文 参考訳(メタデータ) (2024-04-18T06:02:54Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。