論文の概要: Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent
Spaces
- arxiv url: http://arxiv.org/abs/2211.07292v1
- Date: Mon, 14 Nov 2022 11:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:45:38.111563
- Title: Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent
Spaces
- Title(参考訳): ベクトル量子化潜在空間上の高速テキスト条件離散化
- Authors: Dominic Rampas, Pablo Pernias, Elea Zhong and Marc Aubreville
- Abstract要約: Paellaは、高忠実度画像のサンプリングに10ステップ未満の必要な、新しいテキスト・ツー・イメージモデルである。
圧縮された量子化された潜在空間で動作し、CLIPの埋め込みを条件にしている。
遅延空間や、インペイント、アウトペイント、構造編集などの画像操作を行うことができる。
- 参考スコア(独自算出の注目度): 0.7340845393655052
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conditional text-to-image generation has seen countless recent improvements
in terms of quality, diversity and fidelity. Nevertheless, most
state-of-the-art models require numerous inference steps to produce faithful
generations, resulting in performance bottlenecks for end-user applications. In
this paper we introduce Paella, a novel text-to-image model requiring less than
10 steps to sample high-fidelity images, using a speed-optimized architecture
allowing to sample a single image in less than 500 ms, while having 573M
parameters. The model operates on a compressed & quantized latent space, it is
conditioned on CLIP embeddings and uses an improved sampling function over
previous works. Aside from text-conditional image generation, our model is able
to do latent space interpolation and image manipulations such as inpainting,
outpainting, and structural editing. We release all of our code and pretrained
models at https://github.com/dome272/Paella
- Abstract(参考訳): 条件付きテキスト・ツー・イメージ生成では、品質、多様性、忠実性の面で、最近無数の改善が見られた。
それでも、最先端モデルの多くは忠実な世代を生み出すために多くの推論ステップを必要とし、結果としてエンドユーザアプリケーションのパフォーマンスボトルネックが発生する。
本稿では,500ms未満の単一画像を573Mパラメータでサンプリングできる高速最適化アーキテクチャを用いて,高忠実度画像のサンプリングに10ステップ未満を要する新しいテキスト・画像モデルPaellaを紹介する。
このモデルは圧縮および量子化された潜在空間で動作し、クリップ埋め込みを条件とし、以前の作品よりも改良されたサンプリング機能を使用する。
テキスト条件による画像生成とは別に,本モデルでは,インペイント,アウトペイント,構造編集などの潜時空間補間や画像操作を行うことができる。
すべてのコードと事前訓練されたモデルをhttps://github.com/dome272/Paellaでリリースします。
関連論文リスト
- ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Photorealistic and Identity-Preserving Image-Based Emotion Manipulation
with Latent Diffusion Models [31.55798962786664]
In-the-wild」画像を用いた拡散モデルの感情操作能力について検討する。
我々は、AffectNet上で広範囲な評価を行い、画像の品質とリアリズムの観点から、我々のアプローチの優位性を示す。
論文 参考訳(メタデータ) (2023-08-06T18:28:26Z) - TensoIR: Tensorial Inverse Rendering [53.51211939277516]
テンソルIRはテンソル分解とニューラルフィールドに基づく新しい逆レンダリング手法である。
TensoRFは、放射場モデリングのための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-04-24T21:39:13Z) - Text-to-image Diffusion Models in Generative AI: A Survey [75.32882187215394]
本稿では,テキストコンディショニング画像合成における最先端手法,すなわちテキスト・トゥ・イメージについて概観する。
我々はテキスト・ツー・イメージ・ジェネレーションを超える応用について論じる:テキスト・ガイド・クリエイティブ・ジェネレーションとテキスト・ガイド・イメージ・編集。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport [41.265684813975625]
テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
論文 参考訳(メタデータ) (2022-04-18T03:46:06Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。