論文の概要: SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing
- arxiv url: http://arxiv.org/abs/2112.00180v1
- Date: Tue, 30 Nov 2021 23:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:26:41.899359
- Title: SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing
- Title(参考訳): SpaceEdit: オープンドメインイメージ編集のための統一編集スペースを学ぶ
- Authors: Jing Shi, Ning Xu, Haitian Zheng, Alex Smith, Jiebo Luo, Chenliang Xu
- Abstract要約: オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
- 参考スコア(独自算出の注目度): 94.31103255204933
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large pretrained models (e.g., BERT, StyleGAN, CLIP) have shown
great knowledge transfer and generalization capability on various downstream
tasks within their domains. Inspired by these efforts, in this paper we propose
a unified model for open-domain image editing focusing on color and tone
adjustment of open-domain images while keeping their original content and
structure. Our model learns a unified editing space that is more semantic,
intuitive, and easy to manipulate than the operation space (e.g., contrast,
brightness, color curve) used in many existing photo editing softwares. Our
model belongs to the image-to-image translation framework which consists of an
image encoder and decoder, and is trained on pairs of before- and after-images
to produce multimodal outputs. We show that by inverting image pairs into
latent codes of the learned editing space, our model can be leveraged for
various downstream editing tasks such as language-guided image editing,
personalized editing, editing-style clustering, retrieval, etc. We extensively
study the unique properties of the editing space in experiments and demonstrate
superior performance on the aforementioned tasks.
- Abstract(参考訳): 近年、大規模な事前学習モデル(BERT、StyleGAN、CLIP)は、ドメイン内の様々な下流タスクにおいて、優れた知識伝達と一般化能力を示している。
そこで本研究では,オープンドメイン画像の色の調整とトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、多くの既存の写真編集ソフトウェアで使われている操作空間(コントラスト、明るさ、色曲線など)よりも意味的で直感的で操作が容易な統合編集空間を学習する。
本モデルは画像エンコーダとデコーダで構成される画像から画像への変換フレームワークに属し,前と後の画像のペアで学習し,マルチモーダル出力を生成する。
学習した編集空間の潜在コードに画像ペアを反転させることにより、言語案内画像編集、パーソナライズ編集、編集スタイルのクラスタリング、検索など、下流の様々な編集タスクに利用できることを示す。
実験において,編集空間の独特な特性を広範囲に研究し,上記課題において優れた性能を示す。
関連論文リスト
- SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文 参考訳(メタデータ) (2024-07-07T06:50:22Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。