論文の概要: SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing
- arxiv url: http://arxiv.org/abs/2112.00180v1
- Date: Tue, 30 Nov 2021 23:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:26:41.899359
- Title: SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing
- Title(参考訳): SpaceEdit: オープンドメインイメージ編集のための統一編集スペースを学ぶ
- Authors: Jing Shi, Ning Xu, Haitian Zheng, Alex Smith, Jiebo Luo, Chenliang Xu
- Abstract要約: オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
- 参考スコア(独自算出の注目度): 94.31103255204933
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large pretrained models (e.g., BERT, StyleGAN, CLIP) have shown
great knowledge transfer and generalization capability on various downstream
tasks within their domains. Inspired by these efforts, in this paper we propose
a unified model for open-domain image editing focusing on color and tone
adjustment of open-domain images while keeping their original content and
structure. Our model learns a unified editing space that is more semantic,
intuitive, and easy to manipulate than the operation space (e.g., contrast,
brightness, color curve) used in many existing photo editing softwares. Our
model belongs to the image-to-image translation framework which consists of an
image encoder and decoder, and is trained on pairs of before- and after-images
to produce multimodal outputs. We show that by inverting image pairs into
latent codes of the learned editing space, our model can be leveraged for
various downstream editing tasks such as language-guided image editing,
personalized editing, editing-style clustering, retrieval, etc. We extensively
study the unique properties of the editing space in experiments and demonstrate
superior performance on the aforementioned tasks.
- Abstract(参考訳): 近年、大規模な事前学習モデル(BERT、StyleGAN、CLIP)は、ドメイン内の様々な下流タスクにおいて、優れた知識伝達と一般化能力を示している。
そこで本研究では,オープンドメイン画像の色の調整とトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、多くの既存の写真編集ソフトウェアで使われている操作空間(コントラスト、明るさ、色曲線など)よりも意味的で直感的で操作が容易な統合編集空間を学習する。
本モデルは画像エンコーダとデコーダで構成される画像から画像への変換フレームワークに属し,前と後の画像のペアで学習し,マルチモーダル出力を生成する。
学習した編集空間の潜在コードに画像ペアを反転させることにより、言語案内画像編集、パーソナライズ編集、編集スタイルのクラスタリング、検索など、下流の様々な編集タスクに利用できることを示す。
実験において,編集空間の独特な特性を広範囲に研究し,上記課題において優れた性能を示す。
関連論文リスト
- Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。