Fugu-MT 論文翻訳(概要): Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent Spaces

論文の概要: Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent Spaces

arxiv url: http://arxiv.org/abs/2211.07292v1
Date: Mon, 14 Nov 2022 11:52:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 16:45:38.111563
Title: Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent Spaces
Title（参考訳）: ベクトル量子化潜在空間上の高速テキスト条件離散化
Authors: Dominic Rampas, Pablo Pernias, Elea Zhong and Marc Aubreville
Abstract要約: Paellaは、高忠実度画像のサンプリングに10ステップ未満の必要な、新しいテキスト・ツー・イメージモデルである。圧縮された量子化された潜在空間で動作し、CLIPの埋め込みを条件にしている。遅延空間や、インペイント、アウトペイント、構造編集などの画像操作を行うことができる。
参考スコア（独自算出の注目度）: 0.7340845393655052
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Conditional text-to-image generation has seen countless recent improvements in terms of quality, diversity and fidelity. Nevertheless, most state-of-the-art models require numerous inference steps to produce faithful generations, resulting in performance bottlenecks for end-user applications. In this paper we introduce Paella, a novel text-to-image model requiring less than 10 steps to sample high-fidelity images, using a speed-optimized architecture allowing to sample a single image in less than 500 ms, while having 573M parameters. The model operates on a compressed & quantized latent space, it is conditioned on CLIP embeddings and uses an improved sampling function over previous works. Aside from text-conditional image generation, our model is able to do latent space interpolation and image manipulations such as inpainting, outpainting, and structural editing. We release all of our code and pretrained models at https://github.com/dome272/Paella
Abstract（参考訳）: 条件付きテキスト・ツー・イメージ生成では、品質、多様性、忠実性の面で、最近無数の改善が見られた。それでも、最先端モデルの多くは忠実な世代を生み出すために多くの推論ステップを必要とし、結果としてエンドユーザアプリケーションのパフォーマンスボトルネックが発生する。本稿では,500ms未満の単一画像を573Mパラメータでサンプリングできる高速最適化アーキテクチャを用いて,高忠実度画像のサンプリングに10ステップ未満を要する新しいテキスト・画像モデルPaellaを紹介する。このモデルは圧縮および量子化された潜在空間で動作し、クリップ埋め込みを条件とし、以前の作品よりも改良されたサンプリング機能を使用する。テキスト条件による画像生成とは別に,本モデルでは,インペイント,アウトペイント,構造編集などの潜時空間補間や画像操作を行うことができる。すべてのコードと事前訓練されたモデルをhttps://github.com/dome272/Paellaでリリースします。

関連論文リスト

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Development and Enhancement of Text-to-Image Diffusion Models [0.0]
本研究は,テキスト・ツー・イメージ拡散モデルの開発と拡張に焦点を当てる。提案された拡張は、ジェネレーティブAIの新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-07T05:18:00Z)
Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文参考訳（メタデータ） (2025-02-02T15:43:13Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Rethinking Image Skip Connections in StyleGAN2 [5.929956715430167]
スタイルGANモデルは画像合成の分野で大きな注目を集めている。イメージスキップ接続の採用は、従来の残留接続よりも好まれる。本稿では,画像合成の品質を大幅に向上させる画像圧縮接続を提案する。
論文参考訳（メタデータ） (2024-07-08T00:21:17Z)
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。 Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文参考訳（メタデータ） (2024-05-31T17:41:11Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文参考訳（メタデータ） (2024-02-29T04:21:38Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文参考訳（メタデータ） (2022-10-10T09:43:26Z)
Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。 CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文参考訳（メタデータ） (2022-04-25T17:55:26Z)
Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文参考訳（メタデータ） (2021-01-25T09:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。