論文の概要: Pixel-Space Post-Training of Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.17565v1
- Date: Thu, 26 Sep 2024 06:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 22:56:36.406142
- Title: Pixel-Space Post-Training of Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルの画素空間後評価
- Authors: Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu,
Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang
- Abstract要約: 我々は,高頻度の詳細をよりよく保存するために,ポストトレーニングプロセスに画素空間の監視を追加することを提案する。
画素空間の目的を付加することで、教師付き品質の微調整と嗜好に基づくポストトレーニングの両方が大幅に改善されることを示す。
- 参考スコア(独自算出の注目度): 25.537402279188843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models (LDMs) have made significant advancements in the
field of image generation in recent years. One major advantage of LDMs is their
ability to operate in a compressed latent space, allowing for more efficient
training and deployment. However, despite these advantages, challenges with
LDMs still remain. For example, it has been observed that LDMs often generate
high-frequency details and complex compositions imperfectly. We hypothesize
that one reason for these flaws is due to the fact that all pre- and
post-training of LDMs are done in latent space, which is typically $8 \times 8$
lower spatial-resolution than the output images. To address this issue, we
propose adding pixel-space supervision in the post-training process to better
preserve high-frequency details. Experimentally, we show that adding a
pixel-space objective significantly improves both supervised quality
fine-tuning and preference-based post-training by a large margin on a
state-of-the-art DiT transformer and U-Net diffusion models in both visual
quality and visual flaw metrics, while maintaining the same text alignment
quality.
- Abstract(参考訳): 近年,遅延拡散モデル (LDM) は画像生成の分野で大きな進歩を遂げている。
LDMの大きな利点の1つは、圧縮された潜在空間での運用が可能であり、より効率的なトレーニングと展開を可能にすることである。
しかし、これらの利点にもかかわらず、LCDの課題は依然として残っている。
例えば、LDMがしばしば高周波の詳細や複雑な組成を不完全に生成することが観察されている。
これらの欠陥の1つの原因は、LCDの事前および後訓練が、通常出力画像よりも8×8$低い空間分解能を持つ潜在空間で行われるためである、という仮説を立てる。
この問題に対処するため、我々は、高頻度の詳細をよりよく保存するために、ポストトレーニングプロセスにピクセル空間の監視を追加することを提案する。
実験により、画素空間の目的を付加することで、教師付き品質の微調整と嗜好ベースのポストトレーニングの両方が、最先端のDit変換器とU-Net拡散モデルにおいて、同じテキストアライメント品質を維持しながら、視覚的品質と視覚的欠陥の両方で大幅に改善されることを示した。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation [12.564266865237343]
遅延拡散モデル(LDM)は、しばしば高分解能(HR)画像を直接生成する際に重要な構造歪みを経験する。
生成プロセスの高速化を図り,HR画像の品質向上を目的とした注意・進歩型LDM(Attentive and Progressive LDM)を提案する。
AP-LDM は LDM の分解過程を, (i) 注意的訓練分解性脱ノイズ, (ii) 進行性高分解能脱ノイズの2段階に分解する。
論文 参考訳(メタデータ) (2024-10-08T13:56:28Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Boosting Latent Diffusion with Flow Matching [23.043115108005708]
フローマッチング(FM)はより高速なトレーニングと推論を提供するが、合成の多様性は低い。
拡散モデルと畳み込みデコーダの間にFMを導入することで高分解能画像合成が実現できることを示す。
我々は,計算コストを最小限に抑えて,最先端の高解像度画像合成を10242ドルで実現した。
論文 参考訳(メタデータ) (2023-12-12T15:30:24Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。