論文の概要: WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting
- arxiv url: http://arxiv.org/abs/2307.00407v1
- Date: Sat, 1 Jul 2023 18:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:15:53.098176
- Title: WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting
- Title(参考訳): WavePaint: 自己監督型ペンパインティングのための資源効率の良いトケンミキサー
- Authors: Pranav Jeevan, Dharshan Sampath Kumar, Amit Sethi
- Abstract要約: 本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
- 参考スコア(独自算出の注目度): 2.3014300466616078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image inpainting, which refers to the synthesis of missing regions in an
image, can help restore occluded or degraded areas and also serve as a
precursor task for self-supervision. The current state-of-the-art models for
image inpainting are computationally heavy as they are based on transformer or
CNN backbones that are trained in adversarial or diffusion settings. This paper
diverges from vision transformers by using a computationally-efficient
WaveMix-based fully convolutional architecture -- WavePaint. It uses a
2D-discrete wavelet transform (DWT) for spatial and multi-resolution
token-mixing along with convolutional layers. The proposed model outperforms
the current state-of-the-art models for image inpainting on reconstruction
quality while also using less than half the parameter count and considerably
lower training and evaluation times. Our model even outperforms current
GAN-based architectures in CelebA-HQ dataset without using an adversarially
trainable discriminator. Our work suggests that neural architectures that are
modeled after natural image priors require fewer parameters and computations to
achieve generalization comparable to transformers.
- Abstract(参考訳): 画像の欠落した領域の合成を意味する画像の塗装は、隠蔽された領域や劣化した領域の復元を助け、また自己監督の先駆的なタスクとして機能する。
現在の画像インパインティングの最先端モデルは、対向的あるいは拡散的設定でトレーニングされたトランスフォーマーまたはCNNバックボーンに基づいているため、計算的に重い。
本稿では,計算効率の高いwavemixベースの完全畳み込みアーキテクチャであるwavepaintを用いて,視覚トランスフォーマーを分離する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間および多解像度トークン混合を行う。
提案モデルは, 画像の再現性向上のための現状モデルよりも優れており, パラメータ数の半分以下と, かなり低いトレーニング, 評価時間を用いている。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
我々の研究は、トランスフォーマーに匹敵する一般化を達成するために、自然画像に先立ってモデル化されたニューラルネットワークは、パラメータや計算を少なくする必要があることを示唆している。
関連論文リスト
- Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WaveMixSR: A Resource-efficient Neural Network for Image
Super-resolution [2.0477182014909205]
本稿では、WaveMixアーキテクチャに基づく画像超解像のための新しいニューラルネットワーク、WaveMixSRを提案する。
WaveMixSRは、すべてのデータセットで競合性能を達成し、複数の超解像度タスクでBSD100データセットで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-07-01T21:25:03Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Image Inpainting with Learnable Feature Imputation [8.293345261434943]
正規畳み込み層は、未知の領域にフィルターを適用するのと同じ方法で、塗装された画像の視覚的アーティファクトを引き起こす。
本稿では,欠落した入力値の畳み込みに対する(階層的な)特徴計算を提案する。
我々はCelebA-HQとPlaces2を比較し,そのモデルを検証する。
論文 参考訳(メタデータ) (2020-11-02T16:05:32Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。