論文の概要: SIEDOB: Semantic Image Editing by Disentangling Object and Background
- arxiv url: http://arxiv.org/abs/2303.13062v1
- Date: Thu, 23 Mar 2023 06:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:34:12.536163
- Title: SIEDOB: Semantic Image Editing by Disentangling Object and Background
- Title(参考訳): SIEDOB:オブジェクトと背景を分離したセマンティックイメージ編集
- Authors: Wuyang Luo, Su Yang, Xinjian Zhang, Weishan Zhang
- Abstract要約: 本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 5.149242555705579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image editing provides users with a flexible tool to modify a given
image guided by a corresponding segmentation map. In this task, the features of
the foreground objects and the backgrounds are quite different. However, all
previous methods handle backgrounds and objects as a whole using a monolithic
model. Consequently, they remain limited in processing content-rich images and
suffer from generating unrealistic objects and texture-inconsistent
backgrounds. To address this issue, we propose a novel paradigm,
\textbf{S}emantic \textbf{I}mage \textbf{E}diting by \textbf{D}isentangling
\textbf{O}bject and \textbf{B}ackground (\textbf{SIEDOB}), the core idea of
which is to explicitly leverages several heterogeneous subnetworks for objects
and backgrounds. First, SIEDOB disassembles the edited input into background
regions and instance-level objects. Then, we feed them into the dedicated
generators. Finally, all synthesized parts are embedded in their original
locations and utilize a fusion network to obtain a harmonized result. Moreover,
to produce high-quality edited images, we propose some innovative designs,
including Semantic-Aware Self-Propagation Module, Boundary-Anchored Patch
Discriminator, and Style-Diversity Object Generator, and integrate them into
SIEDOB. We conduct extensive experiments on Cityscapes and ADE20K-Room datasets
and exhibit that our method remarkably outperforms the baselines, especially in
synthesizing realistic and diverse objects and texture-consistent backgrounds.
- Abstract(参考訳): セマンティック画像編集は、対応するセグメンテーションマップで誘導された所定の画像を修正するための柔軟なツールを提供する。
このタスクでは、前景オブジェクトと背景の特徴はかなり異なる。
しかしながら、以前のメソッドはすべて、モノリシックなモデルを使用して、背景とオブジェクト全体を処理します。
そのため、コンテンツに富んだ画像の処理に制限があり、非現実的なオブジェクトやテクスチャに一貫性のない背景を生成するのに苦しむ。
この問題に対処するために、新しいパラダイムである \textbf{S}emantic \textbf{I}mage \textbf{E}diting by \textbf{D}isentangling \textbf{O}bject and \textbf{B}ackground (\textbf{SIEDOB})を提案する。
まず、SIEDOBは編集された入力を背景領域とインスタンスレベルのオブジェクトに分解する。
そして、それらを専用の発電機に供給します。
最後に、全ての合成部品は元の場所に埋め込まれ、融合ネットワークを利用して調和した結果を得る。
さらに,高品質な編集画像を生成するために,セマンティクス認識型自己伝達モジュール,バウンダリアンカーパッチ判別器,スタイル多様性オブジェクト生成器などの革新的な設計を提案し,それをsedobに統合する。
我々は,都市景観とade20k-roomデータセットを広範囲に実験し,本手法がベースライン,特に現実的で多様なオブジェクトやテクスチャに一貫性のある背景を合成する上で,極めて優れていることを示す。
関連論文リスト
- GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DreamCom: Finetuning Text-guided Inpainting Model for Image Composition [24.411003826961686]
本研究では、画像合成を、特定の対象に対してカスタマイズされた画像インペイントとして扱うことで、DreamComを提案する。
具体的には、同じオブジェクトを含むいくつかの参照画像に基づいて、事前学習したテキスト誘導画像の塗装モデルを精査する。
実際には、挿入された物体は背景の影響を受けやすいため、陰性な背景干渉を避けるためにマスキングされた注意機構を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:23:50Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Panoptic-based Object Style-Align for Image-to-Image Translation [2.226472061870956]
本稿では,画像から画像への変換を行うために,パノプティクスに基づくオブジェクトスタイル適応生成ネットワーク(POSA-GAN)を提案する。
提案手法は,異なる競合手法と体系的に比較し,画像の画質とオブジェクト認識性能に大きな改善を加えた。
論文 参考訳(メタデータ) (2021-12-03T14:28:11Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文 参考訳(メタデータ) (2020-03-26T00:54:44Z) - Generating Object Stamps [47.20601520671103]
GANアーキテクチャを用いて,様々な前景オブジェクトを生成し,背景画像に合成するアルゴリズムを提案する。
挑戦的なCOCOデータセットの結果,最先端のオブジェクト挿入手法と比較して,全体的な品質と多様性が向上した。
論文 参考訳(メタデータ) (2020-01-01T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。