論文の概要: Text-Guided Synthesis of Artistic Images with Retrieval-Augmented
Diffusion Models
- arxiv url: http://arxiv.org/abs/2207.13038v1
- Date: Tue, 26 Jul 2022 16:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:58:36.324041
- Title: Text-Guided Synthesis of Artistic Images with Retrieval-Augmented
Diffusion Models
- Title(参考訳): 検索型拡散モデルによる芸術的画像のテキスト誘導合成
- Authors: Robin Rombach and Andreas Blattmann and Bj\"orn Ommer
- Abstract要約: 検索拡張拡散モデル(RDM)に基づく代替手法を提案する。
検索データベースを、特定の視覚スタイルの画像のみを含む、より専門的なデータベースに置き換える。
これにより、トレーニング後の一般的なトレーニングモデルに新たな方法が提供され、それによって特定の視覚スタイルが指定される。
- 参考スコア(独自算出の注目度): 12.676356746752894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel architectures have recently improved generative image synthesis leading
to excellent visual quality in various tasks. Of particular note is the field
of ``AI-Art'', which has seen unprecedented growth with the emergence of
powerful multimodal models such as CLIP. By combining speech and image
synthesis models, so-called ``prompt-engineering'' has become established, in
which carefully selected and composed sentences are used to achieve a certain
visual style in the synthesized image. In this note, we present an alternative
approach based on retrieval-augmented diffusion models (RDMs). In RDMs, a set
of nearest neighbors is retrieved from an external database during training for
each training instance, and the diffusion model is conditioned on these
informative samples. During inference (sampling), we replace the retrieval
database with a more specialized database that contains, for example, only
images of a particular visual style. This provides a novel way to prompt a
general trained model after training and thereby specify a particular visual
style. As shown by our experiments, this approach is superior to specifying the
visual style within the text prompt. We open-source code and model weights at
https://github.com/CompVis/latent-diffusion .
- Abstract(参考訳): 新しいアーキテクチャは、最近、様々なタスクで優れた視覚品質をもたらす生成画像合成を改善した。
特に注意すべきは 'AI-Art' の分野であり、CLIPのような強力なマルチモーダルモデルの出現とともに、前例のない成長を遂げている。
音声合成モデルと画像合成モデルを組み合わせることで、いわゆる「プロンプト・エンジニアリング」が確立され、合成画像における特定の視覚的スタイルを達成するために、慎重に選択された合成文が使用される。
本稿では,検索拡張拡散モデル(RDM)に基づく代替手法を提案する。
RDMでは、トレーニングインスタンス毎のトレーニング中に、外部データベースから近接する近傍の集合を検索し、これらの情報化サンプルに拡散モデルを条件付けする。
推論(サンプリング)の間、検索データベースを、例えば特定のビジュアルスタイルの画像のみを含む、より専門的なデータベースに置き換えます。
これにより、トレーニング後の一般的なトレーニングモデルに、特定の視覚スタイルを指定する新たな方法が提供される。
実験で示したように、このアプローチはテキストプロンプト内のビジュアルスタイルを指定するよりも優れている。
コードとモデルはhttps://github.com/CompVis/latent-diffusion で公開しています。
関連論文リスト
- ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - SGDiff: A Style Guided Diffusion Model for Fashion Synthesis [2.4578723416255754]
提案したSGDiffは、画像のモダリティと事前訓練されたテキスト-画像拡散モデルを組み合わせることで、創造的なファッション画像合成を容易にする。
補足的なスタイルのガイダンスを取り入れることで、テキストから画像への拡散モデルの限界に対処する。
本稿では、ファッション画像合成に特化して設計されたSG-Fashionという新しいデータセットも紹介する。
論文 参考訳(メタデータ) (2023-08-15T07:20:22Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。