論文の概要: Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent
Spaces
- arxiv url: http://arxiv.org/abs/2211.07292v1
- Date: Mon, 14 Nov 2022 11:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:45:38.111563
- Title: Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent
Spaces
- Title(参考訳): ベクトル量子化潜在空間上の高速テキスト条件離散化
- Authors: Dominic Rampas, Pablo Pernias, Elea Zhong and Marc Aubreville
- Abstract要約: Paellaは、高忠実度画像のサンプリングに10ステップ未満の必要な、新しいテキスト・ツー・イメージモデルである。
圧縮された量子化された潜在空間で動作し、CLIPの埋め込みを条件にしている。
遅延空間や、インペイント、アウトペイント、構造編集などの画像操作を行うことができる。
- 参考スコア(独自算出の注目度): 0.7340845393655052
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conditional text-to-image generation has seen countless recent improvements
in terms of quality, diversity and fidelity. Nevertheless, most
state-of-the-art models require numerous inference steps to produce faithful
generations, resulting in performance bottlenecks for end-user applications. In
this paper we introduce Paella, a novel text-to-image model requiring less than
10 steps to sample high-fidelity images, using a speed-optimized architecture
allowing to sample a single image in less than 500 ms, while having 573M
parameters. The model operates on a compressed & quantized latent space, it is
conditioned on CLIP embeddings and uses an improved sampling function over
previous works. Aside from text-conditional image generation, our model is able
to do latent space interpolation and image manipulations such as inpainting,
outpainting, and structural editing. We release all of our code and pretrained
models at https://github.com/dome272/Paella
- Abstract(参考訳): 条件付きテキスト・ツー・イメージ生成では、品質、多様性、忠実性の面で、最近無数の改善が見られた。
それでも、最先端モデルの多くは忠実な世代を生み出すために多くの推論ステップを必要とし、結果としてエンドユーザアプリケーションのパフォーマンスボトルネックが発生する。
本稿では,500ms未満の単一画像を573Mパラメータでサンプリングできる高速最適化アーキテクチャを用いて,高忠実度画像のサンプリングに10ステップ未満を要する新しいテキスト・画像モデルPaellaを紹介する。
このモデルは圧縮および量子化された潜在空間で動作し、クリップ埋め込みを条件とし、以前の作品よりも改良されたサンプリング機能を使用する。
テキスト条件による画像生成とは別に,本モデルでは,インペイント,アウトペイント,構造編集などの潜時空間補間や画像操作を行うことができる。
すべてのコードと事前訓練されたモデルをhttps://github.com/dome272/Paellaでリリースします。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Rethinking Image Skip Connections in StyleGAN2 [5.929956715430167]
スタイルGANモデルは画像合成の分野で大きな注目を集めている。
イメージスキップ接続の採用は、従来の残留接続よりも好まれる。
本稿では,画像合成の品質を大幅に向上させる画像圧縮接続を提案する。
論文 参考訳(メタデータ) (2024-07-08T00:21:17Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。