論文の概要: Semantic Layout Manipulation with High-Resolution Sparse Attention
- arxiv url: http://arxiv.org/abs/2012.07288v3
- Date: Fri, 16 Apr 2021 20:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 06:58:34.525099
- Title: Semantic Layout Manipulation with High-Resolution Sparse Attention
- Title(参考訳): 高分解能スパース注意によるセマンティックレイアウトマニピュレーション
- Authors: Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Jianming Zhang, Ning
Xu, Jiebo Luo
- Abstract要約: 本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 106.59650698907953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the problem of semantic image layout manipulation, which aims to
manipulate an input image by editing its semantic label map. A core problem of
this task is how to transfer visual details from the input images to the new
semantic layout while making the resulting image visually realistic. Recent
work on learning cross-domain correspondence has shown promising results for
global layout transfer with dense attention-based warping. However, this method
tends to lose texture details due to the resolution limitation and the lack of
smoothness constraint of correspondence. To adapt this paradigm for the layout
manipulation task, we propose a high-resolution sparse attention module that
effectively transfers visual details to new layouts at a resolution up to
512x512. To further improve visual quality, we introduce a novel generator
architecture consisting of a semantic encoder and a two-stage decoder for
coarse-to-fine synthesis. Experiments on the ADE20k and Places365 datasets
demonstrate that our proposed approach achieves substantial improvements over
the existing inpainting and layout manipulation methods.
- Abstract(参考訳): 本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核となる問題は、入力画像から新しいセマンティックレイアウトに視覚的詳細を移す方法であり、結果として得られるイメージを視覚的にリアルにする。
近年のクロスドメイン対応学習の成果は, 集中集中型ワープによるグローバルレイアウト転送に有望な結果を示している。
しかし, この手法では, 解像度制限や対応のスムーズ性制約の欠如により, テクスチャの細部が失われる傾向にある。
このパラダイムをレイアウト操作タスクに適用するために,512x512までの解像度で,視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
視覚的品質をさらに向上させるために,セマンティックエンコーダと粗大な合成のための2段階デコーダからなる新規なジェネレータアーキテクチャを導入する。
ade20kとplaces365データセットの実験は、提案手法が既存のインペインティングおよびレイアウト操作法よりも大幅に改善されていることを示している。
関連論文リスト
- Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。