論文の概要: Phased Consistency Model
- arxiv url: http://arxiv.org/abs/2405.18407v1
- Date: Tue, 28 May 2024 17:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-29 17:20:57.766507
- Title: Phased Consistency Model
- Title(参考訳): Phased Consistency Model
- Authors: Fu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang,
- Abstract要約: 一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。
しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。
本稿では、設計空間を一般化し、特定されたすべての制約に対処する位相整合モデル(PCM)を提案する。
- 参考スコア(独自算出の注目度): 80.31766777570058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The consistency model (CM) has recently made significant progress in accelerating the generation of diffusion models. However, its application to high-resolution, text-conditioned image generation in the latent space (a.k.a., LCM) remains unsatisfactory. In this paper, we identify three key flaws in the current design of LCM. We investigate the reasons behind these limitations and propose the Phased Consistency Model (PCM), which generalizes the design space and addresses all identified limitations. Our evaluations demonstrate that PCM significantly outperforms LCM across 1--16 step generation settings. While PCM is specifically designed for multi-step refinement, it achieves even superior or comparable 1-step generation results to previously state-of-the-art specifically designed 1-step methods. Furthermore, we show that PCM's methodology is versatile and applicable to video generation, enabling us to train the state-of-the-art few-step text-to-video generator. More details are available at https://g-u-n.github.io/projects/pcm/.
- Abstract(参考訳): 一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。
しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。
本稿では,LCMの現在の設計における3つの重要な欠陥を同定する。
これらの制約の背後にある理由を考察し、設計空間を一般化し、特定されたすべての制限に対処する位相整合モデル(PCM)を提案する。
評価の結果,PCMは1段階から16段階のステップ生成設定でLCMを著しく上回っていることがわかった。
PCMはマルチステップの改良のために特別に設計されているが、従来は最先端の1ステップで設計されていた方法よりも優れた、あるいは同等の1ステップ生成結果が得られる。
さらに,PCMの手法がビデオ生成に適用可能であることを示し,最先端のテキスト・ツー・ビデオ・ジェネレータを訓練することができることを示した。
詳細はhttps://g-u-n.github.io/projects/pcm/で確認できる。
関連論文リスト
- Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Flow Generator Matching [35.371071097381346]
フロージェネレータマッチング(FGM)は、フローマッチングモデルのサンプリングをワンステップ生成に高速化するように設計されている。
CIFAR10の非条件生成ベンチマークでは、1段階のFGMモデルが新たなFr'echet Inception Distance(FID)スコア3.08を達成した。
MM-DiT-FGMワンステップテキスト・ツー・イメージモデルでは,業界レベルでの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-25T05:41:28Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model [77.84225358245487]
本稿では,LCM(Latent Consistency Model)を組み込んだDreamLCMを提案する。
提案手法は, 対象3次元モデルの最適化のために, 高精度かつ詳細な勾配を与えることができる。
DreamLCMは、生成品質とトレーニング効率の両面で最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-08-06T06:59:15Z) - CCDM: Continuous Conditional Diffusion Models for Image Generation [22.70942688582302]
条件拡散モデル(CDM)は連続条件生成モデリング(CCGM)に代わる有望な選択肢を提供する
CDMは、特別に設計された条件拡散プロセス、新しいハード・ヴィジナル・イメージ・デノージング・ロス、効率的な条件サンプリング・プロシージャによる既存の制限に対処する。
CCDMは最先端のCCGMモデルより優れており,新たなベンチマークが確立されている。
論文 参考訳(メタデータ) (2024-05-06T15:10:19Z) - EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。
我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文 参考訳(メタデータ) (2024-04-18T06:02:54Z) - LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文 参考訳(メタデータ) (2023-11-09T18:04:15Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文 参考訳(メタデータ) (2023-05-31T02:34:36Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。