論文の概要: MixSyn: Learning Composition and Style for Multi-Source Image Synthesis
- arxiv url: http://arxiv.org/abs/2111.12705v1
- Date: Wed, 24 Nov 2021 18:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:43:29.916378
- Title: MixSyn: Learning Composition and Style for Multi-Source Image Synthesis
- Title(参考訳): mixsyn: 多元画像合成のための学習構成とスタイル
- Authors: Ilke Demir and Umur A. Ciftci
- Abstract要約: 本研究では,複数の音源から新しいファジィ合成を学習し,その合成に対応する画像領域の混合として新たな画像を作成するためのMixSynを提案する。
品質,多様性,リアリズム,表現力の観点から,MixSynを最先端の単一ソースシーケンシャル生成とコラージュ生成のアプローチと比較した。
- 参考スコア(独自算出の注目度): 8.473714899301601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic images created by generative models increase in quality and
expressiveness as newer models utilize larger datasets and novel architectures.
Although this photorealism is a positive side-effect from a creative
standpoint, it becomes problematic when such generative models are used for
impersonation without consent. Most of these approaches are built on the
partial transfer between source and target pairs, or they generate completely
new samples based on an ideal distribution, still resembling the closest real
sample in the dataset. We propose MixSyn (read as " mixin' ") for learning
novel fuzzy compositions from multiple sources and creating novel images as a
mix of image regions corresponding to the compositions. MixSyn not only
combines uncorrelated regions from multiple source masks into a coherent
semantic composition, but also generates mask-aware high quality
reconstructions of non-existing images. We compare MixSyn to state-of-the-art
single-source sequential generation and collage generation approaches in terms
of quality, diversity, realism, and expressive power; while also showcasing
interactive synthesis, mix & match, and edit propagation tasks, with no mask
dependency.
- Abstract(参考訳): 生成モデルによって作成された合成画像は、新しいモデルがより大きなデータセットと新しいアーキテクチャを使用するにつれて、品質と表現力を高める。
このフォトリアリズムは創造的な観点からは肯定的な副作用であるが、そのような生成モデルが同意なしに偽装する際に問題となる。
これらのアプローチのほとんどは、ソースとターゲットのペア間の部分的な転送に基づいて構築されているか、あるいは理想的な分布に基づいて完全に新しいサンプルを生成し、データセットの最も近い実サンプルに似ている。
そこで本研究では,複数の音源から新しいファジィ合成を学習し,合成に対応する画像領域の混合として新たな画像を生成するMixSynを提案する。
MixSynは、複数のソースマスクからの非相関領域をコヒーレントなセマンティック合成に結合するだけでなく、既存の画像のマスク対応の高品質な再構成を生成する。
mixsynと最先端のシングルソースシーケンシャルジェネレーションとコラージュジェネレーションアプローチを比較し,品質,多様性,リアリズム,表現力の面で比較した。
関連論文リスト
- IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - GenMix: Combining Generative and Mixture Data Augmentation for Medical Image Classification [0.6554326244334868]
我々はGenMixと呼ばれる新しいデータ拡張手法を提案する。
両方の手法の強みを利用するために、生成的アプローチと混合的アプローチを組み合わせる。
我々はGenMixが様々な生成モデルの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2024-05-31T07:32:31Z) - DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。
これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。
DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文 参考訳(メタデータ) (2024-04-05T05:31:02Z) - RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models [42.20230095700904]
RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Barbershop: GAN-based Image Compositing using Segmentation Masks [40.85660781133709]
本稿では,GAN-インバージョンに基づく画像ブレンディング,特にヘアスタイル転写問題に対する新しい解を提案する。
ユーザによる調査では,ブレンディングソリューションが95%以上であるのに対して,ユーザによる評価では,現在の技術よりも大きな改善が見られた。
論文 参考訳(メタデータ) (2021-06-02T23:20:43Z) - SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained
Data [124.95585891086894]
提案はSemantically Proportional Mixing(SnapMix)と呼ばれる
クラスアクティベーションマップ(CAM)を利用して、きめ細かいデータを強化する際にラベルノイズを低減します。
本手法は既存の混合型アプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2020-12-09T03:37:30Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。