論文の概要: Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid
- arxiv url: http://arxiv.org/abs/2112.04107v2
- Date: Mon, 5 Jun 2023 10:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:51:03.128129
- Title: Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid
- Title(参考訳): 学習意味ピラミッドを用いたフルコンテキスト認識画像のインペインティング
- Authors: Wendong Zhang, Yunbo Wang, Bingbing Ni, Xiaokang Yang
- Abstract要約: 画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
- 参考スコア(独自算出の注目度): 102.24539566851809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restoring reasonable and realistic content for arbitrary missing regions in
images is an important yet challenging task. Although recent image inpainting
models have made significant progress in generating vivid visual details, they
can still lead to texture blurring or structural distortions due to contextual
ambiguity when dealing with more complex scenes. To address this issue, we
propose the Semantic Pyramid Network (SPN) motivated by the idea that learning
multi-scale semantic priors from specific pretext tasks can greatly benefit the
recovery of locally missing content in images. SPN consists of two components.
First, it distills semantic priors from a pretext model into a multi-scale
feature pyramid, achieving a consistent understanding of the global context and
local structures. Within the prior learner, we present an optional module for
variational inference to realize probabilistic image inpainting driven by
various learned priors. The second component of SPN is a fully context-aware
image generator, which adaptively and progressively refines low-level visual
representations at multiple scales with the (stochastic) prior pyramid. We
train the prior learner and the image generator as a unified model without any
post-processing. Our approach achieves the state of the art on multiple
datasets, including Places2, Paris StreetView, CelebA, and CelebA-HQ, under
both deterministic and probabilistic inpainting setups.
- Abstract(参考訳): 画像中の任意の欠落領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは、鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、より複雑なシーンを扱う際には、テクスチャのぼやけや構造的歪みが生じる可能性がある。
この問題に対処するために,特定のプレテキストタスクから複数スケールのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・ネットワーク(SPN)を提案する。
SPNは2つのコンポーネントから構成される。
まず、プレテキストモデルからマルチスケールの特徴ピラミッドにセマンティック先行を蒸留し、グローバルコンテキストと局所構造を一貫した理解を達成する。
先行学習者の中では,様々な学習先行に駆動される確率的画像の着色を実現するために,変分推論のためのオプションモジュールを提案する。
SPNの第2のコンポーネントは、完全にコンテキスト対応の画像生成装置で、(確率的な)以前のピラミッドで複数のスケールで低レベルな視覚表現を適応的かつ漸進的に洗練する。
我々は,事前学習者および画像生成者を後処理なしで統一モデルとして訓練する。
当社のアプローチでは,Places2,Paris StreetView,CelebA,CelebA-HQといった複数のデータセット上で,決定論的および確率的インパインティング設定の下で,技術の現状を実現する。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Unbiased Multi-Modality Guidance for Image Inpainting [27.286351511243502]
画像インペイントのためのエンド・ツー・エンドマルチモダリティ誘導型トランスフォーマネットワークを開発した。
各トランスブロック内において,提案した空間認識型アテンションモジュールは,マルチモーダルな構造特徴を効率的に学習することができる。
本手法は,複数のモーダルからの識別情報に基づいて,画像中の意味的一貫した文脈を豊かにする。
論文 参考訳(メタデータ) (2022-08-25T03:13:43Z) - Boosting Image Outpainting with Semantic Layout Prediction [18.819765707811904]
我々は、画像ドメインの代わりにセマンティックセグメンテーションドメイン内の領域を拡張するために、GANを訓練する。
別のGANモデルは、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するように訓練されている。
我々のアプローチは意味的な手がかりをより容易に扱えるので、複雑なシナリオではよりうまく機能します。
論文 参考訳(メタデータ) (2021-10-18T13:09:31Z) - Harnessing the Conditioning Sensorium for Improved Image Translation [2.9631016562930546]
マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
論文 参考訳(メタデータ) (2021-10-13T02:07:43Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。