論文の概要: Free-Form Image Inpainting via Contrastive Attention Network
- arxiv url: http://arxiv.org/abs/2010.15643v1
- Date: Thu, 29 Oct 2020 14:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:13:55.466051
- Title: Free-Form Image Inpainting via Contrastive Attention Network
- Title(参考訳): コントラスト・アテンション・ネットワークによるフリーフォーム画像の描画
- Authors: Xin Ma, Xiaoqiang Zhou, Huaibo Huang, Zhenhua Chai, Xiaolin Wei, Ran
He
- Abstract要約: 画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
- 参考スコア(独自算出の注目度): 64.05544199212831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep learning based image inpainting approaches adopt autoencoder or its
variants to fill missing regions in images. Encoders are usually utilized to
learn powerful representational spaces, which are important for dealing with
sophisticated learning tasks. Specifically, in image inpainting tasks, masks
with any shapes can appear anywhere in images (i.e., free-form masks) which
form complex patterns. It is difficult for encoders to capture such powerful
representations under this complex situation. To tackle this problem, we
propose a self-supervised Siamese inference network to improve the robustness
and generalization. It can encode contextual semantics from full resolution
images and obtain more discriminative representations. we further propose a
multi-scale decoder with a novel dual attention fusion module (DAF), which can
combine both the restored and known regions in a smooth way. This multi-scale
architecture is beneficial for decoding discriminative representations learned
by encoders into images layer by layer. In this way, unknown regions will be
filled naturally from outside to inside. Qualitative and quantitative
experiments on multiple datasets, including facial and natural datasets (i.e.,
Celeb-HQ, Pairs Street View, Places2 and ImageNet), demonstrate that our
proposed method outperforms state-of-the-art methods in generating high-quality
inpainting results.
- Abstract(参考訳): ディープラーニングベースのイメージインペインティングアプローチの多くは、画像の欠落領域を埋めるためにautoencoderまたはその変種を採用する。
エンコーダは通常、高度な学習タスクを扱う上で重要である強力な表現空間を学ぶために使用される。
具体的には、画像の塗装タスクでは、任意の形状のマスクが複雑なパターンを形成する画像(フリーフォームマスク)のどこにでも現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
この問題に対処するために,ロバスト性と一般化を改善するために,自己教師付きシアム推論ネットワークを提案する。
フル解像度画像からコンテキストセマンティクスをエンコードし、より差別的な表現を得ることができる。
さらに,復元された領域と既知の領域をスムーズに結合可能な,新しいdaf(dual attention fusion module)を備えたマルチスケールデコーダを提案する。
このマルチスケールアーキテクチャは、エンコーダが学習した識別表現をレイヤごとにイメージ層にデコードするのに有用である。
このように、未知の領域は外部から内部まで自然に充填される。
顔と自然のデータセット (celeb-hq, pairs street view, places2, imagenet) を含む複数のデータセットにおける質的かつ定量的な実験により,提案手法が最先端の手法を上回って,高品質なインペインティング結果を生成することを実証した。
関連論文リスト
- Dense Feature Interaction Network for Image Inpainting Localization [28.028361409524457]
画像の悪質な操作において、画像内容の隠蔽や改ざんに使用することができる。
既存の手法は主に基本的なエンコーダ・デコーダ構造に依存しており、多くの場合、偽陽性が多くなる。
本稿では,Dense Feature Interaction Network (DeFI-Net) に基づく新しい塗り絵検出手法について述べる。
論文 参考訳(メタデータ) (2024-08-05T02:35:13Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Delving Globally into Texture and Structure for Image Inpainting [20.954875933730808]
画像の塗布は目覚ましい進歩を遂げ、豊富な手法にインスピレーションを与え、重要なボトルネックは、マスキング領域における高周波構造と低周波テクスチャ情報のセマンティクスを満たす方法として特定される。
本稿では,テクスチャと構造情報を世界規模で探索し,画像インペイントのセマンティクスをうまく把握する。
我々のモデルは、テクスチャと構造情報の観点から、コナールニューラルネットワーク(CNN)やアテンション、トランスフォーマーモデルといったファッショナブルな芸術への進化である。
論文 参考訳(メタデータ) (2022-09-17T02:19:26Z) - Contrastive Attention Network with Dense Field Estimation for Face
Completion [11.631559190975034]
本稿では,エンコーダの一般化とロバスト性を改善するために,自己教師付きシームズ推論ネットワークを提案する。
顔画像の幾何学的変動に対処するため,ネットワークに高密度対応フィールドを組み込む。
このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するのに有用である。
論文 参考訳(メタデータ) (2021-12-20T02:54:38Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z) - Deep Generative Model for Image Inpainting with Local Binary Pattern
Learning and Spatial Attention [28.807711307545112]
本稿では,LBP学習ネットワークと実際の塗布ネットワークを組み合わせることで,エンド・ツー・エンドの2段階(粗い)生成モデルを提案する。
CelebA-HQ、Places、Paris StreetViewといった公開データセットの実験では、我々のモデルは最先端の競合するアルゴリズムよりも優れた塗装結果を生成する。
論文 参考訳(メタデータ) (2020-09-02T12:59:28Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。