論文の概要: A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis
in Quantized Latent Spaces
- arxiv url: http://arxiv.org/abs/2211.07292v2
- Date: Tue, 23 May 2023 16:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 01:01:58.124459
- Title: A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis
in Quantized Latent Spaces
- Title(参考訳): 量子化潜在空間におけるテキスト・画像合成のための新しいサンプリング手法
- Authors: Dominic Rampas, Pablo Pernias, and Marc Aubreville
- Abstract要約: トレーニングパラダイムとサンプリングプロセスの両方を包含するテキスト・画像生成の合理化手法を提案する。
本手法は, 極めて単純であるが, サンプリングをほとんど行わず, 審美的に満足な画像が得られる。
既存の作業に匹敵する結果を得るために,本手法の有効性を示すために,1ビリオンパラメータのテキスト条件モデルを訓練した。
- 参考スコア(独自算出の注目度): 0.7340845393655052
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in the domain of text-to-image synthesis have culminated
in a multitude of enhancements pertaining to quality, fidelity, and diversity.
Contemporary techniques enable the generation of highly intricate visuals which
rapidly approach near-photorealistic quality. Nevertheless, as progress is
achieved, the complexity of these methodologies increases, consequently
intensifying the comprehension barrier between individuals within the field and
those external to it.
In an endeavor to mitigate this disparity, we propose a streamlined approach
for text-to-image generation, which encompasses both the training paradigm and
the sampling process. Despite its remarkable simplicity, our method yields
aesthetically pleasing images with few sampling iterations, allows for
intriguing ways for conditioning the model, and imparts advantages absent in
state-of-the-art techniques. To demonstrate the efficacy of this approach in
achieving outcomes comparable to existing works, we have trained a one-billion
parameter text-conditional model, which we refer to as "Paella". In the
interest of fostering future exploration in this field, we have made our source
code and models publicly accessible for the research community.
- Abstract(参考訳): テキストと画像の合成領域の最近の進歩は、品質、忠実性、多様性に関する様々な拡張で頂点に達している。
現代の技術は、フォトリアリズムに近いクオリティに素早くアプローチする非常に複雑な視覚を生成することができる。
しかし、進歩が進むにつれて、これらの方法論の複雑さが増し、フィールド内の個人と外部の個人の間での理解障壁が強まる。
そこで本研究では,この差異を緩和するために,学習パラダイムとサンプリングプロセスの両方を包含するテキスト対画像生成の合理化手法を提案する。
本手法は, 極めて単純でありながら, サンプル反復が少なく, 審美的に満足な画像が得られ, モデルの条件付けに興味深い方法が得られ, 最先端技術に欠ける利点を付与する。
既存の作業に匹敵する結果を得る上で,このアプローチの有効性を示すために,我々は,パネラと呼ぶ1ビリオンパラメータのテキスト条件モデルを訓練した。
この分野で将来の探査を促進するため、私たちはソースコードとモデルを研究コミュニティに公開できるようにしました。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Rethinking Image Skip Connections in StyleGAN2 [5.929956715430167]
スタイルGANモデルは画像合成の分野で大きな注目を集めている。
イメージスキップ接続の採用は、従来の残留接続よりも好まれる。
本稿では,画像合成の品質を大幅に向上させる画像圧縮接続を提案する。
論文 参考訳(メタデータ) (2024-07-08T00:21:17Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。