論文の概要: CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying
- arxiv url: http://arxiv.org/abs/2303.08524v1
- Date: Wed, 15 Mar 2023 11:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:10:54.552862
- Title: CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying
- Title(参考訳): coordfill:パラメータ付き座標クエリによる高分解能画像インパインティング
- Authors: Weihuang Liu, Xiaodong Cun, Chi-Man Pun, Menghan Xia, Yong Zhang, Jue
Wang
- Abstract要約: 本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
- 参考スコア(独自算出の注目度): 52.91778151771145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting aims to fill the missing hole of the input. It is hard to
solve this task efficiently when facing high-resolution images due to two
reasons: (1) Large reception field needs to be handled for high-resolution
image inpainting. (2) The general encoder and decoder network synthesizes many
background pixels synchronously due to the form of the image matrix. In this
paper, we try to break the above limitations for the first time thanks to the
recent development of continuous implicit representation. In detail, we
down-sample and encode the degraded image to produce the spatial-adaptive
parameters for each spatial patch via an attentional Fast Fourier
Convolution(FFC)-based parameter generation network. Then, we take these
parameters as the weights and biases of a series of multi-layer
perceptron(MLP), where the input is the encoded continuous coordinates and the
output is the synthesized color value. Thanks to the proposed structure, we
only encode the high-resolution image in a relatively low resolution for larger
reception field capturing. Then, the continuous position encoding will be
helpful to synthesize the photo-realistic high-frequency textures by
re-sampling the coordinate in a higher resolution. Also, our framework enables
us to query the coordinates of missing pixels only in parallel, yielding a more
efficient solution than the previous methods. Experiments show that the
proposed method achieves real-time performance on the 2048$\times$2048 images
using a single GTX 2080 Ti GPU and can handle 4096$\times$4096 images, with
much better performance than existing state-of-the-art methods visually and
numerically. The code is available at:
https://github.com/NiFangBaAGe/CoordFill.
- Abstract(参考訳): Image Inpaintingは、入力の欠落した穴を埋めることを目的としている。
高解像度画像に対して,(1)大きな受信フィールドを扱う必要がある,という2つの理由から,この課題を効率的に解決することは困難である。
2)一般エンコーダ及びデコーダネットワークは、画像マトリックスの形態により、多数の背景画素を同期的に合成する。
本稿では,近年の連続的暗黙表現の発展により,上記の制約を初めて破ろうとしている。
本稿では,FFC(Fast Fourier Convolution)に基づくパラメータ生成ネットワークを用いて,分解画像のダウンサンプリングと符号化を行い,各空間パッチの空間適応パラメータを生成する。
そして、これらのパラメータを一連の多層パーセプトロン(MLP)の重みとバイアスとみなし、入力は符号化された連続座標であり、出力は合成された色値である。
提案手法により,高解像度画像のみを比較的低解像度で符号化し,受信場を拡大する。
次に、連続位置符号化は、高分解能で座標を再サンプリングすることにより、フォトリアリスティックな高周波テクスチャを合成するのに役立つ。
また,本フレームワークでは,欠落画素の座標を並列にのみ問合せすることが可能であり,従来の手法よりも効率的な解が得られる。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$\times$2048の画像をリアルタイムに処理し,4096$\times$4096の画像を処理可能であることがわかった。
コードはhttps://github.com/nifangbaage/coordfill。
関連論文リスト
- Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z) - Contextual Residual Aggregation for Ultra High-Resolution Image
Inpainting [12.839962012888199]
そこで本稿では,CRA(Contextual Residual Aggregation)機構を提案する。
CRA機構は、コンテキストパッチからの残基の重み付けにより、欠落した内容に対して高周波残基を生成する。
提案手法は,解像度512×512の小型画像に対して学習し,高解像度画像に対する推論を行い,良好な塗装品質を実現する。
論文 参考訳(メタデータ) (2020-05-19T18:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。