論文の概要: EditGAN: High-Precision Semantic Image Editing
- arxiv url: http://arxiv.org/abs/2111.03186v1
- Date: Thu, 4 Nov 2021 22:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:20:40.608649
- Title: EditGAN: High-Precision Semantic Image Editing
- Title(参考訳): EditGAN: 高精度セマンティック画像編集
- Authors: Huan Ling, Karsten Kreis, Daiqing Li, Seung Wook Kim, Antonio
Torralba, Sanja Fidler
- Abstract要約: EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
- 参考スコア(独自算出の注目度): 120.49401527771067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative adversarial networks (GANs) have recently found applications in
image editing. However, most GAN based image editing methods often require
large scale datasets with semantic segmentation annotations for training, only
provide high level control, or merely interpolate between different images.
Here, we propose EditGAN, a novel method for high quality, high precision
semantic image editing, allowing users to edit images by modifying their highly
detailed part segmentation masks, e.g., drawing a new mask for the headlight of
a car. EditGAN builds on a GAN framework that jointly models images and their
semantic segmentations, requiring only a handful of labeled examples, making it
a scalable tool for editing. Specifically, we embed an image into the GAN
latent space and perform conditional latent code optimization according to the
segmentation edit, which effectively also modifies the image. To amortize
optimization, we find editing vectors in latent space that realize the edits.
The framework allows us to learn an arbitrary number of editing vectors, which
can then be directly applied on other images at interactive rates. We
experimentally show that EditGAN can manipulate images with an unprecedented
level of detail and freedom, while preserving full image quality.We can also
easily combine multiple edits and perform plausible edits beyond EditGAN
training data. We demonstrate EditGAN on a wide variety of image types and
quantitatively outperform several previous editing methods on standard editing
benchmark tasks.
- Abstract(参考訳): generative adversarial networks (gans) は最近、画像編集に応用されている。
しかし、ほとんどのGANベースの画像編集手法は、訓練用にセマンティックセグメンテーションアノテーションを持つ大規模なデータセットを必要とすることが多く、高いレベルの制御しか提供しない。
本稿では,高品質で高精度なセマンティックな画像編集のための新しい手法であるEditGANを提案する。
EditGANは、画像とセマンティックセグメンテーションを共同でモデル化するGANフレームワーク上に構築されている。
具体的には、画像をGAN潜在空間に埋め込んで、セグメント化編集に従って条件付き潜在コード最適化を行い、画像も効果的に修正する。
最適化を行うために,編集を実現する潜在空間に編集ベクトルを求める。
このフレームワークは任意の数の編集ベクトルを学習し、対話的な速度で他の画像に直接適用することができる。
本研究では,前例のない精細度と自由度で画像の操作が可能であり,同時に,複数の編集を組み合わせることも可能であり,editganのトレーニングデータ以上の編集を行うことが可能であることを実験的に示す。
さまざまな画像タイプでEditGANを実演し、標準的な編集ベンチマークタスクで過去の編集方法よりも定量的に優れていることを示す。
関連論文リスト
- DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。