論文の概要: Conditional Diffusion on Web-Scale Image Pairs leads to Diverse Image Variations
- arxiv url: http://arxiv.org/abs/2405.14857v3
- Date: Wed, 02 Oct 2024 10:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:41.768949
- Title: Conditional Diffusion on Web-Scale Image Pairs leads to Diverse Image Variations
- Title(参考訳): Webスケール画像ペアの条件拡散は、様々な画像変化をもたらす
- Authors: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom,
- Abstract要約: 現在の画像変化技術では、同じ画像に条件付けされた入力画像の再構成にテキスト・ツー・イメージ・モデルを適用する。
凍結した埋め込み画像から入力画像の再構成を訓練した拡散モデルにより,小さなバリエーションで画像の再構成が可能であることを示す。
本稿では,画像ペアの集合を用いて画像の変動を生成するための事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 32.892042877725125
- License:
- Abstract: Generating image variations, where a model produces variations of an input image while preserving the semantic context has gained increasing attention. Current image variation techniques involve adapting a text-to-image model to reconstruct an input image conditioned on the same image. We first demonstrate that a diffusion model trained to reconstruct an input image from frozen embeddings, can reconstruct the image with minor variations. Second, inspired by how text-to-image models learn from web-scale text-image pairs, we explore a new pretraining strategy to generate image variations using a large collection of image pairs. Our diffusion model \textit{Semantica} receives a random (encoded) image from a webpage as conditional input and denoises another noisy random image from the same webpage. We carefully examine various design choices for the image encoder, given its crucial role in extracting relevant context from the input image. Once trained, \textit{Semantica} can adaptively generate new images from a dataset by simply using images from that dataset as input. Finally, we identify limitations in standard image consistency metrics for evaluating image variations and propose alternative metrics based on few-shot generation.
- Abstract(参考訳): 意味的文脈を保ちながら入力画像のバリエーションをモデルが生成する画像のバリエーションの生成が注目されている。
現在の画像変化技術では、同じ画像に条件付けされた入力画像の再構成にテキスト・ツー・イメージ・モデルを適用する。
まず、凍結埋め込みから入力画像の再構成を訓練した拡散モデルを用いて、小さなバリエーションで画像を再構成できることを実証する。
第二に、ウェブスケールのテキストイメージペアからテキスト・ツー・イメージモデルがどのように学習するかに着想を得て、画像ペアの大規模な集合を用いて画像のバリエーションを生成するための新たな事前学習戦略を探求する。
我々の拡散モデル \textit{Semantica} は、Webページからランダムな(符号化された)画像を条件入力として受信し、同じWebページから別のノイズの多いランダムなイメージを識別する。
入力画像から関連するコンテキストを抽出する上で重要な役割を担い、画像エンコーダの設計選択を慎重に検討する。
トレーニングが完了すれば,データセットからのイメージを入力として単純に使用することで,データセットから新たなイメージを適応的に生成することが可能になる。
最後に、画像の変動を評価するための標準画像整合性指標の制限を特定し、少数ショット生成に基づく代替指標を提案する。
関連論文リスト
- Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。