論文の概要: HINT: High-quality INPainting Transformer with Mask-Aware Encoding and
Enhanced Attention
- arxiv url: http://arxiv.org/abs/2402.14185v1
- Date: Thu, 22 Feb 2024 00:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:52:07.683735
- Title: HINT: High-quality INPainting Transformer with Mask-Aware Encoding and
Enhanced Attention
- Title(参考訳): ヒント:マスク認識エンコーディングと注目度向上による高品質塗装変圧器
- Authors: Shuang Chen, Amir Atapour-Abarghouei, Hubert P. H. Shum
- Abstract要約: 既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。
本稿では,新しいマスク対応画素シャッフルダウンサンプリングモジュールであるHINTを用いたエンドツーエンドの高品質インペインティングトランスを提案する。
4つのデータセット上の現代最先端モデルと比較して,HINTの優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.055584700641212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image inpainting methods leverage convolution-based downsampling
approaches to reduce spatial dimensions. This may result in information loss
from corrupted images where the available information is inherently sparse,
especially for the scenario of large missing regions. Recent advances in
self-attention mechanisms within transformers have led to significant
improvements in many computer vision tasks including inpainting. However,
limited by the computational costs, existing methods cannot fully exploit the
efficacy of long-range modelling capabilities of such models. In this paper, we
propose an end-to-end High-quality INpainting Transformer, abbreviated as HINT,
which consists of a novel mask-aware pixel-shuffle downsampling module (MPD) to
preserve the visible information extracted from the corrupted image while
maintaining the integrity of the information available for high-level
inferences made within the model. Moreover, we propose a Spatially-activated
Channel Attention Layer (SCAL), an efficient self-attention mechanism
interpreting spatial awareness to model the corrupted image at multiple scales.
To further enhance the effectiveness of SCAL, motivated by recent advanced in
speech recognition, we introduce a sandwich structure that places feed-forward
networks before and after the SCAL module. We demonstrate the superior
performance of HINT compared to contemporary state-of-the-art models on four
datasets, CelebA, CelebA-HQ, Places2, and Dunhuang.
- Abstract(参考訳): 既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。
これは、特に大きな欠落領域のシナリオにおいて、利用可能な情報が本質的にスパースしている腐敗した画像から情報を失う可能性がある。
近年の変圧器内自己着脱機構の進歩により、塗装を含む多くのコンピュータビジョンタスクが大幅に改善されている。
しかし、計算コストに制限されるため、既存の手法ではそのようなモデルの長距離モデリング能力を完全に活用することはできない。
本稿では,画像から抽出された可視情報を保存し,モデル内のハイレベルな推論に使用可能な情報の完全性を維持しつつ,新たなマスクアウェア画素シャッフルダウンサンプリングモジュール(mpd)からなる,ヒントとして省略されたエンドツーエンドの高品質インパインティングトランスを提案する。
さらに,空間認識を解釈し,複数のスケールで劣化画像をモデル化する効率的な自己注意機構である空間活性化チャネルアテンション層(scal)を提案する。
音声認識における最近の進歩によって動機付けられたSCALの有効性をさらに高めるために,SCALモジュールの前後にフィードフォワードネットワークを配置するサンドイッチ構造を導入する。
我々は,CelebA,CelebA-HQ,Places2,Dunhuangの4つのデータセットにおける現代最先端モデルと比較して,HINTの優れた性能を示す。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。