論文の概要: MixSyn: Learning Composition and Style for Multi-Source Image Synthesis
- arxiv url: http://arxiv.org/abs/2111.12705v1
- Date: Wed, 24 Nov 2021 18:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:43:29.916378
- Title: MixSyn: Learning Composition and Style for Multi-Source Image Synthesis
- Title(参考訳): mixsyn: 多元画像合成のための学習構成とスタイル
- Authors: Ilke Demir and Umur A. Ciftci
- Abstract要約: 本研究では,複数の音源から新しいファジィ合成を学習し,その合成に対応する画像領域の混合として新たな画像を作成するためのMixSynを提案する。
品質,多様性,リアリズム,表現力の観点から,MixSynを最先端の単一ソースシーケンシャル生成とコラージュ生成のアプローチと比較した。
- 参考スコア(独自算出の注目度): 8.473714899301601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic images created by generative models increase in quality and
expressiveness as newer models utilize larger datasets and novel architectures.
Although this photorealism is a positive side-effect from a creative
standpoint, it becomes problematic when such generative models are used for
impersonation without consent. Most of these approaches are built on the
partial transfer between source and target pairs, or they generate completely
new samples based on an ideal distribution, still resembling the closest real
sample in the dataset. We propose MixSyn (read as " mixin' ") for learning
novel fuzzy compositions from multiple sources and creating novel images as a
mix of image regions corresponding to the compositions. MixSyn not only
combines uncorrelated regions from multiple source masks into a coherent
semantic composition, but also generates mask-aware high quality
reconstructions of non-existing images. We compare MixSyn to state-of-the-art
single-source sequential generation and collage generation approaches in terms
of quality, diversity, realism, and expressive power; while also showcasing
interactive synthesis, mix & match, and edit propagation tasks, with no mask
dependency.
- Abstract(参考訳): 生成モデルによって作成された合成画像は、新しいモデルがより大きなデータセットと新しいアーキテクチャを使用するにつれて、品質と表現力を高める。
このフォトリアリズムは創造的な観点からは肯定的な副作用であるが、そのような生成モデルが同意なしに偽装する際に問題となる。
これらのアプローチのほとんどは、ソースとターゲットのペア間の部分的な転送に基づいて構築されているか、あるいは理想的な分布に基づいて完全に新しいサンプルを生成し、データセットの最も近い実サンプルに似ている。
そこで本研究では,複数の音源から新しいファジィ合成を学習し,合成に対応する画像領域の混合として新たな画像を生成するMixSynを提案する。
MixSynは、複数のソースマスクからの非相関領域をコヒーレントなセマンティック合成に結合するだけでなく、既存の画像のマスク対応の高品質な再構成を生成する。
mixsynと最先端のシングルソースシーケンシャルジェネレーションとコラージュジェネレーションアプローチを比較し,品質,多様性,リアリズム,表現力の面で比較した。
関連論文リスト
- RealCompo: Dynamic Equilibrium between Realism and Compositionality
Improves Text-to-Image Diffusion Models [44.904373096762924]
本稿では,RealCompoという,トレーニング不要で移動しやすいテキスト・ツー・イメージ生成フレームワークを提案する。
テキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルの利点を活用して、生成した画像のリアリズムと構成性の両方を強化することを目的としている。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Barbershop: GAN-based Image Compositing using Segmentation Masks [40.85660781133709]
本稿では,GAN-インバージョンに基づく画像ブレンディング,特にヘアスタイル転写問題に対する新しい解を提案する。
ユーザによる調査では,ブレンディングソリューションが95%以上であるのに対して,ユーザによる評価では,現在の技術よりも大きな改善が見られた。
論文 参考訳(メタデータ) (2021-06-02T23:20:43Z) - Fine-grained Semantic Constraint in Image Synthesis [8.22379888383833]
本稿では,細粒度属性とマスクを入力とした画像合成のための多段高分解能モデルを提案する。
従来のマスクでは、生成した画像が視覚に適合するように、本論文のモデルが制約される。
また,画像の全体像とサブ領域を同時に識別することで,生成的敵ネットワークの識別能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2021-01-12T15:51:49Z) - SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained
Data [124.95585891086894]
提案はSemantically Proportional Mixing(SnapMix)と呼ばれる
クラスアクティベーションマップ(CAM)を利用して、きめ細かいデータを強化する際にラベルノイズを低減します。
本手法は既存の混合型アプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2020-12-09T03:37:30Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。