Fugu-MT 論文翻訳(概要): SpaceEdit: Learning a Unified Editing Space for Open-Domain Image Editing

論文の概要: SpaceEdit: Learning a Unified Editing Space for Open-Domain Image Editing

arxiv url: http://arxiv.org/abs/2112.00180v1
Date: Tue, 30 Nov 2021 23:53:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-02 15:26:41.899359
Title: SpaceEdit: Learning a Unified Editing Space for Open-Domain Image Editing
Title（参考訳）: SpaceEdit: オープンドメインイメージ編集のための統一編集スペースを学ぶ
Authors: Jing Shi, Ning Xu, Haitian Zheng, Alex Smith, Jiebo Luo, Chenliang Xu
Abstract要約: オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
参考スコア（独自算出の注目度）: 94.31103255204933
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, large pretrained models (e.g., BERT, StyleGAN, CLIP) have shown great knowledge transfer and generalization capability on various downstream tasks within their domains. Inspired by these efforts, in this paper we propose a unified model for open-domain image editing focusing on color and tone adjustment of open-domain images while keeping their original content and structure. Our model learns a unified editing space that is more semantic, intuitive, and easy to manipulate than the operation space (e.g., contrast, brightness, color curve) used in many existing photo editing softwares. Our model belongs to the image-to-image translation framework which consists of an image encoder and decoder, and is trained on pairs of before- and after-images to produce multimodal outputs. We show that by inverting image pairs into latent codes of the learned editing space, our model can be leveraged for various downstream editing tasks such as language-guided image editing, personalized editing, editing-style clustering, retrieval, etc. We extensively study the unique properties of the editing space in experiments and demonstrate superior performance on the aforementioned tasks.
Abstract（参考訳）: 近年、大規模な事前学習モデル(BERT、StyleGAN、CLIP)は、ドメイン内の様々な下流タスクにおいて、優れた知識伝達と一般化能力を示している。そこで本研究では,オープンドメイン画像の色の調整とトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。我々のモデルは、多くの既存の写真編集ソフトウェアで使われている操作空間(コントラスト、明るさ、色曲線など)よりも意味的で直感的で操作が容易な統合編集空間を学習する。本モデルは画像エンコーダとデコーダで構成される画像から画像への変換フレームワークに属し,前と後の画像のペアで学習し,マルチモーダル出力を生成する。学習した編集空間の潜在コードに画像ペアを反転させることにより、言語案内画像編集、パーソナライズ編集、編集スタイルのクラスタリング、検索など、下流の様々な編集タスクに利用できることを示す。実験において,編集空間の独特な特性を広範囲に研究し,上記課題において優れた性能を示す。

関連論文リスト

Towards Efficient Exemplar Based Image Editing with Multimodal VLMs [11.830273909934688]
本研究では,テキストから画像への拡散モデルとマルチモーダルVLMを利用して,既存のペアからコンテンツイメージへ編集を転送する作業に取り組む。エンドツーエンドのパイプラインは最適化不要ですが、実験では、複数のタイプの編集においてベースラインを4倍高速で上回っています。
論文参考訳（メタデータ） (2025-06-25T06:20:36Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文参考訳（メタデータ） (2025-05-13T18:24:15Z)
REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models [21.889238871432553]
遅延拡散モデルでは印象的な画像編集結果が得られるが,同じ画像の反復的編集への応用は厳しく制限されている。可変オートエンコーダ(VAE)のためのRE-Encode Decode(REED)トレーニングスキームを提案する。本稿では、REED-VAEが画像の全体的な編集可能性を高め、良好な編集操作を行う可能性を高めることを示す。
論文参考訳（メタデータ） (2025-04-26T18:26:54Z)
BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-13T17:58:06Z)
SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-15T17:40:48Z)
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文参考訳（メタデータ） (2024-07-07T06:50:22Z)
Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-11T17:59:51Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-30T01:26:41Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。