Fugu-MT 論文翻訳(概要): Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

論文の概要: Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

arxiv url: http://arxiv.org/abs/2310.03502v1
Date: Thu, 5 Oct 2023 12:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 16:26:46.351966
Title: Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
Title（参考訳）: Kandinsky: 画像優先拡散と遅延拡散によるテキスト・画像合成の改善
Authors: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov and Denis Dimitrov
Abstract要約: 本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
参考スコア（独自算出の注目度）: 50.59261592343479
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image generation is a significant domain in modern computer vision and has achieved substantial improvements through the evolution of generative architectures. Among these, there are diffusion-based models that have demonstrated essential quality enhancements. These models are generally split into two categories: pixel-level and latent-level approaches. We present Kandinsky1, a novel exploration of latent diffusion architecture, combining the principles of the image prior models with latent diffusion techniques. The image prior model is trained separately to map text embeddings to image embeddings of CLIP. Another distinct feature of the proposed model is the modified MoVQ implementation, which serves as the image autoencoder component. Overall, the designed model contains 3.3B parameters. We also deployed a user-friendly demo system that supports diverse generative modes such as text-to-image generation, image fusion, text and image fusion, image variations generation, and text-guided inpainting/outpainting. Additionally, we released the source code and checkpoints for the Kandinsky models. Experimental evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking our model as the top open-source performer in terms of measurable image generation quality.
Abstract（参考訳）: テキストから画像への生成は現代のコンピュータビジョンにおいて重要な領域であり、生成アーキテクチャの進化を通じて大幅に改善されてきた。中でも,本質的な品質向上を示す拡散モデルが存在する。これらのモデルは一般的にピクセルレベルと潜在レベルという2つのカテゴリに分けられる。本稿では,画像先行モデルの原理と潜在拡散手法を組み合わせた,潜在拡散アーキテクチャの新しい探索であるkandinsky1を提案する。画像先行モデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練される。提案モデルのもうひとつの特徴は、イメージオートエンコーダコンポーネントとして機能するMoVQ実装の改良である。全体として、設計モデルは3.3Bパラメータを含む。また,テキスト対画像生成,画像融合,テキストと画像の融合,画像変動生成,テキストガイド付きインパインティング/アウトパインティングといった多様な生成モードをサポートするユーザフレンドリなデモシステムも展開した。さらに、Kandinskyモデルのソースコードとチェックポイントもリリースしました。実験により,COCO-30Kデータセット上でのFIDスコアは8.03であり,測定可能な画像生成品質の面では,我々のモデルを最上位のオープンソースパフォーマーと評価した。

関連論文リスト

CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。我々は多視点拡散モデルを用いて立方体の6つの面を合成する。本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文参考訳（メタデータ） (2025-01-28T18:59:49Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework [3.7953598825170753]
カンディンスキー3は潜伏拡散に基づく新しいT2Iモデルであり、高い品質と光リアリズムを達成する。各種アプリケーションのためのベースT2Iモデルを拡張し,多機能生成システムを構築する。人による評価では、Kandinsky 3はオープンソース生成システムの中で最高品質のスコアの1つを示している。
論文参考訳（メタデータ） (2024-10-28T14:22:08Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。 IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文参考訳（メタデータ） (2024-10-09T17:59:13Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models [10.744438740060458]
本研究の目的は,テキスト記述を超えて多種多様なモダリティを組み込むことにより,拡散型テキスト・ツー・イメージ(T2I)生成モデルの能力を拡張することである。そこで我々は,条件のチャネルを3つのタイプに分割することで,DiffBlenderと呼ばれるマルチモーダルT2I拡散モデルを設計する。 DiffBlenderのユニークなアーキテクチャは、新しい入力モダリティの追加を容易にし、条件付き画像生成のためのスケーラブルなフレームワークを開拓する。
論文参考訳（メタデータ） (2023-05-24T14:31:20Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文参考訳（メタデータ） (2023-02-16T14:20:25Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。