論文の概要: Semantic-Guided Inpainting Network for Complex Urban Scenes Manipulation
- arxiv url: http://arxiv.org/abs/2010.09334v1
- Date: Mon, 19 Oct 2020 09:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:07:58.928255
- Title: Semantic-Guided Inpainting Network for Complex Urban Scenes Manipulation
- Title(参考訳): 複雑な都市景観操作のためのセマンティックガイド塗装ネットワーク
- Authors: Pierfrancesco Ardino, Yahui Liu, Elisa Ricci, Bruno Lepri and Marco De
Nadai
- Abstract要約: 本研究では,ユーザが指定した画像の一部を取り除き,複雑な都市景観を再現する新しいディープラーニングモデルを提案する。
画像のインペイントに関する最近の研究に触発されて,提案手法はセマンティックセグメンテーションを利用して画像の内容と構造をモデル化する。
信頼性の高い結果を生成するために,セマンティックセグメンテーションと生成タスクを組み合わせた新しいデコーダブロックを設計する。
- 参考スコア(独自算出の注目度): 19.657440527538547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulating images of complex scenes to reconstruct, insert and/or remove
specific object instances is a challenging task. Complex scenes contain
multiple semantics and objects, which are frequently cluttered or ambiguous,
thus hampering the performance of inpainting models. Conventional techniques
often rely on structural information such as object contours in multi-stage
approaches that generate unreliable results and boundaries. In this work, we
propose a novel deep learning model to alter a complex urban scene by removing
a user-specified portion of the image and coherently inserting a new object
(e.g. car or pedestrian) in that scene. Inspired by recent works on image
inpainting, our proposed method leverages the semantic segmentation to model
the content and structure of the image, and learn the best shape and location
of the object to insert. To generate reliable results, we design a new decoder
block that combines the semantic segmentation and generation task to guide
better the generation of new objects and scenes, which have to be semantically
consistent with the image. Our experiments, conducted on two large-scale
datasets of urban scenes (Cityscapes and Indian Driving), show that our
proposed approach successfully address the problem of semantically-guided
inpainting of complex urban scene.
- Abstract(参考訳): 複雑なシーンの画像を操作して、特定のオブジェクトインスタンスを再構築、挿入、削除することは、難しい作業です。
複雑なシーンには複数のセマンティクスやオブジェクトが含まれており、しばしば散らかっているか曖昧である。
従来の手法は、信頼できない結果や境界を生成する多段階アプローチにおいて、オブジェクトの輪郭のような構造情報に依存することが多い。
本研究では、画像のユーザ指定部分を除去し、そのシーンに新しい物体(車や歩行者など)をコヒーレントに挿入することにより、複雑な都市景観を変更するための新しいディープラーニングモデルを提案する。
画像インパインティングに関する最近の研究に触発されて,提案手法は意味的セグメンテーションを利用して画像の内容と構造をモデル化し,挿入対象の最適な形状と位置を学習する。
信頼性の高い結果を生成するために,セマンティックセグメンテーションと生成タスクを組み合わせた新しいデコーダブロックを設計し,画像と意味的に一貫性のある新たなオブジェクトやシーンの生成を誘導する。
都市シーンの2つの大規模データセット(都市景観とインドドライブ)で実施した実験により,提案手法が,複雑な都市シーンを意味的に誘導する問題にうまく対処できることが確認された。
関連論文リスト
- Sketch-Guided Scene Image Generation [11.009579131371018]
スケッチ入力からシーン画像を生成するタスクを分解したスケッチ誘導シーン画像生成フレームワークを提案する。
事前学習した拡散モデルを用いて、個々のオブジェクトの描画をオブジェクトのイメージに変換し、余分なスケッチ構造を維持しながら追加の詳細を推測する。
シーンレベルの画像構築において、分離した背景プロンプトを用いてシーン画像の潜在表現を生成する。
論文 参考訳(メタデータ) (2024-07-09T00:16:45Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:08Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Boosting Image Outpainting with Semantic Layout Prediction [18.819765707811904]
我々は、画像ドメインの代わりにセマンティックセグメンテーションドメイン内の領域を拡張するために、GANを訓練する。
別のGANモデルは、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するように訓練されている。
我々のアプローチは意味的な手がかりをより容易に扱えるので、複雑なシナリオではよりうまく機能します。
論文 参考訳(メタデータ) (2021-10-18T13:09:31Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。