論文の概要: Few-shot Image Generation Using Discrete Content Representation
- arxiv url: http://arxiv.org/abs/2207.10833v1
- Date: Fri, 22 Jul 2022 01:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:55:20.151184
- Title: Few-shot Image Generation Using Discrete Content Representation
- Title(参考訳): 離散コンテンツ表現を用いた画像生成
- Authors: Yan Hong, Li Niu, Jianfu Zhang, Liqing Zhang
- Abstract要約: 画像変換は、イメージをスタイルベクターとコンテンツマップに切り離す。
連続コンテンツマップを離散コンテンツマップに量子化することで、局所コンテンツベクトルのコンパクト辞書を学習する。
本モデルでは, 従来の手法に比べて, 未確認カテゴリに対して, 多様性と忠実度の高い画像を生成することができる。
- 参考スコア(独自算出の注目度): 27.570773346794613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot image generation and few-shot image translation are two related
tasks, both of which aim to generate new images for an unseen category with
only a few images. In this work, we make the first attempt to adapt few-shot
image translation method to few-shot image generation task. Few-shot image
translation disentangles an image into style vector and content map. An unseen
style vector can be combined with different seen content maps to produce
different images. However, it needs to store seen images to provide content
maps and the unseen style vector may be incompatible with seen content maps. To
adapt it to few-shot image generation task, we learn a compact dictionary of
local content vectors via quantizing continuous content maps into discrete
content maps instead of storing seen images. Furthermore, we model the
autoregressive distribution of discrete content map conditioned on style
vector, which can alleviate the incompatibility between content map and style
vector. Qualitative and quantitative results on three real datasets demonstrate
that our model can produce images of higher diversity and fidelity for unseen
categories than previous methods.
- Abstract(参考訳): 少数ショット画像生成と少数ショット画像翻訳は2つの関連するタスクであり、どちらもわずか数枚の画像で見えないカテゴリの新しい画像を生成することを目的としている。
そこで本研究では, 少数ショット画像生成タスクに, 少数ショット画像変換法を適用した最初の試みを行う。
少数ショット画像翻訳は、画像をスタイルベクトルとコンテンツマップに切り離す。
目に見えないスタイルのベクターと異なるコンテンツマップを組み合わせることで、異なる画像を生成することができる。
しかし、コンテンツマップを提供するために画像を保存する必要があり、見えないスタイルのベクターは、コンテンツマップと互換性がないかもしれない。
少数ショット画像生成タスクに適応するために,参照画像を保存するのではなく,連続コンテンツマップを離散コンテンツマップに量子化することで,局所コンテンツベクトルのコンパクト辞書を学習する。
さらに,スタイルベクトルに条件付き離散コンテンツマップの自己回帰分布をモデル化し,コンテンツマップとスタイルベクトルの非互換性を軽減する。
3つの実データセットの定性的および定量的な結果から,本モデルが従来の手法よりも高い多様性と忠実さの画像を生成できることが示される。
関連論文リスト
- CIMGEN: Controlled Image Manipulation by Finetuning Pretrained
Generative Models on Limited Data [14.469539513542584]
セマンティックマップは、画像に存在するオブジェクトの情報を持っている。
簡単にマップを変更して、マップ内のオブジェクトを選択的に挿入、削除、置換することができる。
本稿では,修正セマンティックマップを取り入れ,修正セマンティックマップに従って原画像を変更する手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T06:30:47Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Non-Parametric Style Transfer [0.9137554315375919]
最近のフィードフォワードニューラル法では、主にエンコードされた特徴写像を2次統計量まで利用している。
我々は,画像のスタイルが受容場からの応答の分布によって表されるという認識に基づいて,2階統計特徴マッチングを一般分布マッチングに拡張する。
この結果から,本手法により得られたスタイリング画像は,コンテンツクリアネスを損なうことなく,既存のすべてのスタイル尺度におけるターゲットスタイル画像とより類似していることが証明された。
論文 参考訳(メタデータ) (2022-06-26T16:34:37Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Domain-Specific Mappings for Generative Adversarial Style Transfer [30.50889066030244]
スタイル転送は、コンテンツが1つの画像から来る画像と、もう1つの画像から来るスタイルを生成する。
以前の方法は、しばしば共有ドメイン不変のコンテンツ空間を前提としており、コンテンツ表現能力を損なう可能性がある。
本稿では、共有コンテンツ空間における潜在特徴をドメイン固有のコンテンツ空間に再マッピングするために、ドメイン固有のマッピングを利用する。
論文 参考訳(メタデータ) (2020-08-05T15:55:25Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。