論文の概要: Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion
- arxiv url: http://arxiv.org/abs/2512.04926v1
- Date: Thu, 04 Dec 2025 15:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.257266
- Title: Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion
- Title(参考訳): 意味論を先導する:非同期潜在拡散による意味とテクスチャモデリングの調和
- Authors: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng,
- Abstract要約: 潜在拡散モデル (LDMs) は本質的に粗大から細い生成過程に従う。
近年の進歩は、LDMをさらに強化するために、事前訓練された視覚エンコーダのセマンティック先行を統合化している。
本稿では,セマンティックファースト拡散(Semantic-First Diffusion,SFD)を提案する。
- 参考スコア(独自算出の注目度): 59.30874672131483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
- Abstract(参考訳): 潜在拡散モデル (LDMs) は本質的に粗い粒度の生成過程を辿り、高レベルのセマンティック構造はきめ細かいテクスチャよりもわずかに早く生成される。
これは、先行するセマンティクスがセマンティクスアンカーを提供することでテクスチャ生成に有用であることを示している。
近年の進歩は、事前訓練された視覚エンコーダのセマンティック先行を統合してLCDをさらに強化しているが、それでもセマンティックとVAEエンコードされたテクスチャを同期的に軽視し、そのような順序を無視している。
そこで本研究では,セマンティックファースト拡散(Semantic-First Diffusion,SFD)を提案し,セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
SFD はまず,専用セマンティックVAE を用いて事前学習した視覚エンコーダから抽出したコンパクトなセマンティックラテントとテクスチャラテントを組み合わせることで,複合ラテントを合成する。
SFDのコアとなるのは、セマンティックスとテクスチャラテントを、別個のノイズスケジュールを使って非同期に識別することである:セマンティックスは、時間オフセットによってテクスチャに先行し、テクスチャの洗練のためのより明確な高レベルガイダンスを提供し、自然な粗いから微細な生成を可能にする。
ImageNet 256x256 では、SFD は FID 1.06 (LightningDiT-XL) と FID 1.04 (1.0B LightningDiT-XXL) を達成している。
SFDはまた、ReDiやVA-VAEといった既存のメソッドを改善し、非同期セマンティクスによるモデリングの有効性を実証している。
プロジェクトページとコード:https://yuemingpan.github.io/SFD.github.io/
関連論文リスト
- Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [19.109259539368]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - SLLEN: Semantic-aware Low-light Image Enhancement Network [92.80325772199876]
LLEメインネットワーク(LLEmN)とSS補助ネットワーク(SSaN)からなる意味認識型LLEネットワーク(SSLEN)を開発する。
現在利用可能なアプローチとは異なり、提案されているSLLENは、LLEを支援するためにIEF、HSF、SSデータセットなどのセマンティック情報を完全に読み取ることができる。
提案したSLLENと他の最先端技術との比較により,LLEの品質に対するSLLENの優位性が示された。
論文 参考訳(メタデータ) (2022-11-21T15:29:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。