論文の概要: T-former: An Efficient Transformer for Image Inpainting
- arxiv url: http://arxiv.org/abs/2305.07239v2
- Date: Fri, 19 May 2023 02:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 18:16:20.370747
- Title: T-former: An Efficient Transformer for Image Inpainting
- Title(参考訳): t-former:画像インペインティングのための効率的なトランスフォーマー
- Authors: Ye Deng, Siqi Hui, Sanping Zhou, Deyu Meng, Jinjun Wang
- Abstract要約: トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
- 参考スコア(独自算出の注目度): 50.43302925662507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from powerful convolutional neural networks (CNNs), learning-based
image inpainting methods have made significant breakthroughs over the years.
However, some nature of CNNs (e.g. local prior, spatially shared parameters)
limit the performance in the face of broken images with diverse and complex
forms. Recently, a class of attention-based network architectures, called
transformer, has shown significant performance on natural language processing
fields and high-level vision tasks. Compared with CNNs, attention operators are
better at long-range modeling and have dynamic weights, but their computational
complexity is quadratic in spatial resolution, and thus less suitable for
applications involving higher resolution images, such as image inpainting. In
this paper, we design a novel attention linearly related to the resolution
according to Taylor expansion. And based on this attention, a network called
$T$-former is designed for image inpainting. Experiments on several benchmark
datasets demonstrate that our proposed method achieves state-of-the-art
accuracy while maintaining a relatively low number of parameters and
computational complexity. The code can be found at
\href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting}
- Abstract(参考訳): 強力な畳み込みニューラルネットワーク(cnns)の恩恵を受け、学習に基づくイメージインペインティング手法は、長年にわたって大きなブレークスルーを遂げてきた。
しかし、CNNのいくつかの性質(例えば、局所的な事前、空間的に共有されたパラメータ)は、多様で複雑な画像の面における性能を制限している。
近年,自然言語処理や高レベル視覚タスクにおいて,注目度に基づくネットワークアーキテクチャのクラスであるTransformerが注目されている。
CNNと比較して、アテンション演算子は長距離モデリングに優れ、動的重みを持つが、その計算複雑性は空間分解能において二次的であり、画像のインペイントのような高解像度画像を含むアプリケーションには適さない。
本稿では,テイラー展開による分解能に関連する新しい注意を線形に設計する。
この点を踏まえると、$T$-formerと呼ばれるネットワークは画像のインペイント用に設計されている。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
コードは \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting} で見ることができる。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - CNNs for JPEGs: A Study in Computational Cost [45.74830585715129]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2023-09-20T15:49:38Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。