論文の概要: Retrieval-Augmented Diffusion Models
- arxiv url: http://arxiv.org/abs/2204.11824v1
- Date: Mon, 25 Apr 2022 17:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:59:39.264103
- Title: Retrieval-Augmented Diffusion Models
- Title(参考訳): 探索型拡散モデル
- Authors: Andreas Blattmann, Robin Rombach, Kaan Oktay, Bj\"orn Ommer
- Abstract要約: 本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
- 参考スコア(独自算出の注目度): 11.278903078792917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative image synthesis with diffusion models has recently achieved
excellent visual quality in several tasks such as text-based or
class-conditional image synthesis. Much of this success is due to a dramatic
increase in the computational capacity invested in training these models. This
work presents an alternative approach: inspired by its successful application
in natural language processing, we propose to complement the diffusion model
with a retrieval-based approach and to introduce an explicit memory in the form
of an external database. During training, our diffusion model is trained with
similar visual features retrieved via CLIP and from the neighborhood of each
training instance. By leveraging CLIP's joint image-text embedding space, our
model achieves highly competitive performance on tasks for which it has not
been explicitly trained, such as class-conditional or text-image synthesis, and
can be conditioned on both text and image embeddings. Moreover, we can apply
our approach to unconditional generation, where it achieves state-of-the-art
performance. Our approach incurs low computational and memory overheads and is
easy to implement. We discuss its relationship to concurrent work and will
publish code and pretrained models soon.
- Abstract(参考訳): 拡散モデルを用いた生成画像合成は,テキストベースやクラス条件画像合成などのタスクにおいて,視覚的品質に優れる。
この成功の大部分は、これらのモデルのトレーニングに費やされた計算能力の劇的な増加によるものである。
本稿では,自然言語処理におけるその成功にインスパイアされた代替手法として,拡散モデルを検索に基づくアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
トレーニング中、我々の拡散モデルは、CLIPおよび各トレーニングインスタンスの近傍から取得した同様の視覚的特徴で訓練される。
クリップのジョイント画像テキスト埋め込み空間を利用することで,クラス条件合成やテキスト画像合成など,明示的に訓練されていないタスクにおいて高い競合性能を達成し,テキストと画像の埋め込みの両方で条件付けすることができる。
さらに、この手法を非条件生成に適用し、最先端の性能を実現する。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
コンカレントな作業との関係を議論し、間もなくコードと事前訓練されたモデルを公開する。
関連論文リスト
- Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Text-Guided Synthesis of Artistic Images with Retrieval-Augmented
Diffusion Models [12.676356746752894]
検索拡張拡散モデル(RDM)に基づく代替手法を提案する。
検索データベースを、特定の視覚スタイルの画像のみを含む、より専門的なデータベースに置き換える。
これにより、トレーニング後の一般的なトレーニングモデルに新たな方法が提供され、それによって特定の視覚スタイルが指定される。
論文 参考訳(メタデータ) (2022-07-26T16:56:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。