論文の概要: Thinking inside the Convolution for Image Inpainting: Reconstructing Texture via Structure under Global and Local Side
- arxiv url: http://arxiv.org/abs/2602.03013v1
- Date: Tue, 03 Feb 2026 02:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.194935
- Title: Thinking inside the Convolution for Image Inpainting: Reconstructing Texture via Structure under Global and Local Side
- Title(参考訳): イメージインペインティングにおけるコンボリューションの考え方:グローバル・ローカル・サイド構造によるテクスチャ再構築
- Authors: Haipeng Liu, Yang Wang, Biao Qian, Yong Rui, Meng Wang,
- Abstract要約: エンコーダとデコーダのパイプラインのため、画像のインペイントは大幅に進歩した。
近年の研究では、エンコーダからCNNから抽出される高周波構造と低周波テクスチャを直感的に同定している。
本稿では,構造的特徴写像とテクスチャ的特徴写像が,畳み込みダウンサンプリング時の情報損失を軽減するのにどう役立つのかを体系的に答える。
- 参考スコア(独自算出の注目度): 19.6934948102931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image inpainting has earned substantial progress, owing to the encoder-and-decoder pipeline, which is benefited from the Convolutional Neural Networks (CNNs) with convolutional downsampling to inpaint the masked regions semantically from the known regions within the encoder, coupled with an upsampling process from the decoder for final inpainting output. Recent studies intuitively identify the high-frequency structure and low-frequency texture to be extracted by CNNs from the encoder, and subsequently for a desirable upsampling recovery. However, the existing arts inevitably overlook the information loss for both structure and texture feature maps during the convolutional downsampling process, hence suffer from a non-ideal upsampling output. In this paper, we systematically answer whether and how the structure and texture feature map can mutually help to alleviate the information loss during the convolutional downsampling. Given the structure and texture feature maps, we adopt the statistical normalization and denormalization strategy for the reconstruction guidance during the convolutional downsampling process. The extensive experimental results validate its advantages to the state-of-the-arts over the images from low-to-high resolutions including 256*256 and 512*512, especially holds by substituting all the encoders by ours. Our code is available at https://github.com/htyjers/ConvInpaint-TSGL
- Abstract(参考訳): エンコーダ・アンド・デコーダパイプラインは、畳み込みニューラルネットワーク(CNN)の恩恵を受け、エンコーダ内の既知の領域から意味的にマスクされた領域をインペイントする畳み込みダウンサンプリングと、デコーダからのアップサンプリングプロセスが組み合わさって、大きな進歩を遂げている。
近年の研究では、エンコーダから抽出される高周波構造と低周波テクスチャを直感的に同定し、その後に好適なアップサンプリング回復を図っている。
しかし、既存の芸術は、畳み込みダウンサンプリングの過程で構造とテクスチャの特徴マップの両方の情報損失を必然的に見落としているため、非理想的なアップサンプリングの出力に悩まされる。
本稿では,構造的特徴写像とテクスチャ的特徴写像が,畳み込みダウンサンプリング時の情報損失を軽減するのにどう役立つのかを体系的に答える。
構造とテクスチャの特徴マップを考慮に入れ, 畳み込みダウンサンプリング過程における再構築指導の統計的正規化と非正規化戦略を採用する。
256*256 や 512*512 などの低解像度から高解像度までの画像に対して,特にエンコーダを我々の手で置換することで,その利点を実証した。
私たちのコードはhttps://github.com/htyjers/ConvInpaint-TSGLで利用可能です。
関連論文リスト
- Neural Graphics Texture Compression Supporting Random Access [34.974631096947284]
本稿では,従来のGPUテクスチャ表現とNIC技術を統合したテクスチャセット圧縮手法を提案する。
本稿では、畳み込みエンコーダを用いた非対称自動エンコーダフレームワークを提案する。
実験により,従来のテクスチャ圧縮よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-06T19:44:13Z) - Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering [47.78392889256976]
Paint-itは3Dレンダリングのためのテキスト駆動の高忠実なテクスチャマップ合成法である。
Paint-itはScore-Distillation Sampling(SDS)を利用してテキスト記述からテクスチャマップを合成する
我々は,DC-PBRがテクスチャ周波数に応じて最適化カリキュラムをスケジュールし,SDSからノイズ信号を自然にフィルタすることを示した。
論文 参考訳(メタデータ) (2023-12-18T17:17:08Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Super-Resolution of License Plate Images Using Attention Modules and
Sub-Pixel Convolution Layers [3.8831062015253055]
監視画像における構造的特徴およびテクスチャ的特徴の検出を強化するために,Single-Image Super-Resolution (SISR) アプローチを導入する。
提案手法は,サブピクセルの畳み込み層と,光学的文字認識(OCR)モデルを用いて特徴抽出を行うロス関数を含む。
以上の結果から, これらの低解像度合成画像の再構成手法は, 定量化と定性化の両面で, 既存の画像よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-27T00:17:19Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。