論文の概要: MAT: Mask-Aware Transformer for Large Hole Image Inpainting
- arxiv url: http://arxiv.org/abs/2203.15270v2
- Date: Wed, 30 Mar 2022 04:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 11:40:39.388574
- Title: MAT: Mask-Aware Transformer for Large Hole Image Inpainting
- Title(参考訳): MAT:大型ホール画像塗布用マスク対応変圧器
- Authors: Wenbo Li, Zhe Lin, Kun Zhou, Lu Qi, Yi Wang, Jiaya Jia
- Abstract要約: 本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 79.67039090195527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown the importance of modeling long-range interactions
in the inpainting problem. To achieve this goal, existing approaches exploit
either standalone attention techniques or transformers, but usually under a low
resolution in consideration of computational cost. In this paper, we present a
novel transformer-based model for large hole inpainting, which unifies the
merits of transformers and convolutions to efficiently process high-resolution
images. We carefully design each component of our framework to guarantee the
high fidelity and diversity of recovered images. Specifically, we customize an
inpainting-oriented transformer block, where the attention module aggregates
non-local information only from partial valid tokens, indicated by a dynamic
mask. Extensive experiments demonstrate the state-of-the-art performance of the
new model on multiple benchmark datasets. Code is released at
https://github.com/fenglinglwb/MAT.
- Abstract(参考訳): 近年の研究では、塗装問題における長距離相互作用のモデル化の重要性が示されている。
この目的を達成するために、既存のアプローチはスタンドアロンの注意技法または変圧器を利用するが、計算コストを考慮すると通常は低解像度である。
本稿では,超高分解能画像を効率的に処理するための変圧器と畳み込みの利点を統一した,新しい大孔インペインティング用変圧器モデルを提案する。
我々は、回収された画像の忠実度と多様性を保証するために、フレームワークの各コンポーネントを慎重に設計する。
具体的にはインテンションモジュールが動的マスクで示される部分的有効トークンのみから非局所情報を集約するインパインティング指向トランスフォーマーブロックをカスタマイズする。
大規模な実験は、複数のベンチマークデータセット上で新しいモデルの最先端のパフォーマンスを示す。
コードはhttps://github.com/fenglinglwb/matでリリースされる。
関連論文リスト
- HINT: High-quality INPainting Transformer with Mask-Aware Encoding and
Enhanced Attention [14.055584700641212]
既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。
本稿では,新しいマスク対応画素シャッフルダウンサンプリングモジュールであるHINTを用いたエンドツーエンドの高品質インペインティングトランスを提案する。
4つのデータセット上の現代最先端モデルと比較して,HINTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-22T00:14:26Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。