論文の概要: Resolution-robust Large Mask Inpainting with Fourier Convolutions
- arxiv url: http://arxiv.org/abs/2109.07161v1
- Date: Wed, 15 Sep 2021 08:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 23:43:24.659426
- Title: Resolution-robust Large Mask Inpainting with Fourier Convolutions
- Title(参考訳): フーリエ畳み込みによるレゾリューションロバスト大型マスク
- Authors: Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia
Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka,
Kiwoong Park, Victor Lempitsky
- Abstract要約: 塗装システムは、大きな欠落した領域、複雑な幾何学構造、高解像度の画像にしばしば苦労する。
その主な原因の1つは、塗装ネットワークと損失関数の両方において、効果的な受容野が欠如していることである。
本稿では,この問題を緩和するために,大型マスク塗装 (LaMa) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.152370311844445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern image inpainting systems, despite the significant progress, often
struggle with large missing areas, complex geometric structures, and
high-resolution images. We find that one of the main reasons for that is the
lack of an effective receptive field in both the inpainting network and the
loss function. To alleviate this issue, we propose a new method called large
mask inpainting (LaMa). LaMa is based on i) a new inpainting network
architecture that uses fast Fourier convolutions, which have the image-wide
receptive field; ii) a high receptive field perceptual loss; and iii) large
training masks, which unlocks the potential of the first two components. Our
inpainting network improves the state-of-the-art across a range of datasets and
achieves excellent performance even in challenging scenarios, e.g. completion
of periodic structures. Our model generalizes surprisingly well to resolutions
that are higher than those seen at train time, and achieves this at lower
parameter&compute costs than the competitive baselines. The code is available
at https://github.com/saic-mdal/lama.
- Abstract(参考訳): 現代の画像インペインティングシステムは、重要な進歩にもかかわらず、しばしば大きな欠落領域、複雑な幾何学的構造、高解像度画像に苦しむ。
その主な原因の1つは、塗装ネットワークと損失関数の両方において、効果的な受容野が欠如していることである。
この問題を軽減するために,大型マスク塗装 (LaMa) と呼ばれる新しい手法を提案する。
LaMaはベースです
一 高速フーリエ畳み込みを利用した新しい塗布網の建築であって、画像の広い受容領域を有するもの
二 高い受容領域知覚損失、及び
三 大型の訓練用マスクで、最初の二つの部品の可能性を解き放つこと。
当社のインペインティングネットワークは,データセット全体の最先端を改善し,周期構造完了などの困難なシナリオにおいても優れたパフォーマンスを実現しています。
我々のモデルは、列車時よりも高い解像度に驚くほどよく一般化し、競合するベースラインよりも低いパラメータと計算コストでこれを達成します。
コードはhttps://github.com/saic-mdal/lamaで入手できる。
関連論文リスト
- T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z) - Feature Refinement to Improve High Resolution Image Inpainting [1.4824891788575418]
塗装ネットワークは、トレーニングセットよりも高い解像度でグローバルコヒーレントな構造を生成できないことが多い。
推論におけるマルチスケールの一貫性損失を最小限に抑えることにより,ネットワークの中間的特徴マップを最適化する。
このランタイム最適化は、塗装結果を改善し、高分解能塗装のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-06-27T21:59:12Z) - GLaMa: Joint Spatial and Frequency Loss for General Image Inpainting [44.04779984090629]
画像インパインティングの目的は、残部からコンテキスト情報を用いて傷跡や損傷領域を復元することである。
本稿では、GLaMaと呼ばれるLaMa画像の塗布フレームワークに基づいて、この問題を簡易かつ汎用的に解決する手法を提案する。
提案したGLaMaは、より多くの種類のマスクを使用することで、様々な種類の行方不明情報をよりよくキャプチャできる。
論文 参考訳(メタデータ) (2022-05-15T02:18:59Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Incremental Transformer Structure Enhanced Image Inpainting with Masking
Positional Encoding [38.014569953980754]
提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。
我々のモデルは、ゼロd残差加算により、他の事前学習した塗装モデルと効率的に統合することができる。
論文 参考訳(メタデータ) (2022-03-02T04:27:27Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。