論文の概要: Swapping Autoencoder for Deep Image Manipulation
- arxiv url: http://arxiv.org/abs/2007.00653v2
- Date: Mon, 14 Dec 2020 09:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:03:46.764777
- Title: Swapping Autoencoder for Deep Image Manipulation
- Title(参考訳): 深部画像操作のためのスワッピングオートエンコーダ
- Authors: Taesung Park, Jun-Yan Zhu, Oliver Wang, Jingwan Lu, Eli Shechtman,
Alexei A. Efros, Richard Zhang
- Abstract要約: 画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
- 参考スコア(独自算出の注目度): 94.33114146172606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have become increasingly effective at producing
realistic images from randomly sampled seeds, but using such models for
controllable manipulation of existing images remains challenging. We propose
the Swapping Autoencoder, a deep model designed specifically for image
manipulation, rather than random sampling. The key idea is to encode an image
with two independent components and enforce that any swapped combination maps
to a realistic image. In particular, we encourage the components to represent
structure and texture, by enforcing one component to encode co-occurrent patch
statistics across different parts of an image. As our method is trained with an
encoder, finding the latent codes for a new input image becomes trivial, rather
than cumbersome. As a result, it can be used to manipulate real input images in
various ways, including texture swapping, local and global editing, and latent
code vector arithmetic. Experiments on multiple datasets show that our model
produces better results and is substantially more efficient compared to recent
generative models.
- Abstract(参考訳): 深層生成モデルは、ランダムにサンプリングされた種子から現実的な画像を生成するのに益々有効であるが、既存の画像の制御可能な操作のためにそのようなモデルを使用することは依然として困難である。
ランダムサンプリングではなく,画像操作に特化したディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
特に,画像の異なる部分にわたる同時発生パッチ統計を符号化するために,ひとつのコンポーネントを強制することにより,コンポーネントの構造やテクスチャの表現を推奨する。
提案手法はエンコーダを用いて訓練されるため,新しい入力画像の潜時符号の発見は煩雑なものではなく,簡単なものとなる。
結果として、テクスチャスワップ、局所的およびグローバルな編集、潜在コードベクトル演算など、実際の入力画像を様々な方法で操作することができる。
複数のデータセットで実験した結果、我々のモデルはより良い結果をもたらし、最近の生成モデルよりも大幅に効率が良いことが分かりました。
関連論文リスト
- Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - SISL:Self-Supervised Image Signature Learning for Splicing Detection and
Localization [11.437760125881049]
画像の周波数変換からスプライシング検出/局所化モデルを訓練するための自己教師型アプローチを提案する。
提案したモデルでは,ラベルやメタデータを使わずに,標準データセット上で同様のあるいはより良いパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-15T12:26:29Z) - EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。
結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文 参考訳(メタデータ) (2021-11-30T10:23:06Z) - StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for
Real-time Image Editing [19.495153059077367]
generative adversarial networks (gans) はランダムな潜在ベクトルから現実的な画像を合成する。
ganによる実画像の編集は、実画像を潜在ベクトルに投影するための時間消費最適化(ii)またはエンコーダによる不正確な埋め込みに苦しむ。
StyleMapGANを提案する:中間潜空間は空間次元を持ち、空間的変異体はAdaINを置き換える。
論文 参考訳(メタデータ) (2021-04-30T04:43:24Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。