論文の概要: Yuan-TecSwin: A text conditioned Diffusion model with Swin-transformer blocks
- arxiv url: http://arxiv.org/abs/2512.16586v1
- Date: Thu, 18 Dec 2025 14:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.10076
- Title: Yuan-TecSwin: A text conditioned Diffusion model with Swin-transformer blocks
- Title(参考訳): Yuan-TecSwin: Swin-transformerブロックを用いたテキスト条件付き拡散モデル
- Authors: Shaohua Wu, Tong Yu, Shenling Wang, Xudong Zhao,
- Abstract要約: 拡散モデルは、そのU字型アーキテクチャと畳み込みニューラルネットワーク(CNN)を基本ブロックとして、画像合成において顕著な能力を示している。
本研究では,Swin-transformerを用いたテキスト条件拡散モデルを提案する。
Yuan-TecSwinはImageNet生成ベンチマークで1.37の最先端のFIDスコアを達成している。
- 参考スコア(独自算出の注目度): 28.895073514108088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown remarkable capacity in image synthesis based on their U-shaped architecture and convolutional neural networks (CNN) as basic blocks. The locality of the convolution operation in CNN may limit the model's ability to understand long-range semantic information. To address this issue, we propose Yuan-TecSwin, a text-conditioned diffusion model with Swin-transformer in this work. The Swin-transformer blocks take the place of CNN blocks in the encoder and decoder, to improve the non-local modeling ability in feature extraction and image restoration. The text-image alignment is improved with a well-chosen text encoder, effective utilization of text embedding, and careful design in the incorporation of text condition. Using an adapted time step to search in different diffusion stages, inference performance is further improved by 10%. Yuan-TecSwin achieves the state-of-the-art FID score of 1.37 on ImageNet generation benchmark, without any additional models at different denoising stages. In a side-by-side comparison, we find it difficult for human interviewees to tell the model-generated images from the human-painted ones.
- Abstract(参考訳): 拡散モデルは、そのU字型アーキテクチャと畳み込みニューラルネットワーク(CNN)を基本ブロックとして、画像合成において顕著な能力を示している。
CNNにおける畳み込み操作の局所性は、モデルが長距離の意味情報を理解する能力を制限する可能性がある。
そこで本研究では,Swin-transformerを用いたテキスト条件拡散モデルであるYuan-TecSwinを提案する。
Swin-transformerブロックはエンコーダとデコーダのCNNブロックの代わりになり、特徴抽出と画像復元における非局所モデリング能力を改善する。
テキスト画像アライメントは、良質なテキストエンコーダ、テキスト埋め込みの有効活用、テキスト条件の組み込みにおける注意深い設計により改善される。
異なる拡散段階の探索に適応した時間ステップを用いることで、推論性能をさらに10%向上させる。
Yuan-TecSwinはImageNet生成ベンチマークで1.37の最先端のFIDスコアを達成している。
副次的に比較すると,人間の被写体からモデル生成画像を伝えることは困難であることがわかった。
関連論文リスト
- TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。