論文の概要: Reduce Information Loss in Transformers for Pluralistic Image Inpainting
- arxiv url: http://arxiv.org/abs/2205.05076v1
- Date: Tue, 10 May 2022 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 20:28:50.073728
- Title: Reduce Information Loss in Transformers for Pluralistic Image Inpainting
- Title(参考訳): 複数画像化のための変圧器の情報損失低減
- Authors: Qiankun Liu and Zhentao Tan and Dongdong Chen and Qi Chu and Xiyang
Dai and Yinpeng Chen and Mengchen Liu and Lu Yuan and Nenghai Yu
- Abstract要約: 入力情報を可能な限り保持するための新しいトランスフォーマーベースのフレームワーク"PUT"を提案する。
PUTは、特に大きなマスキング領域と複雑な大規模データセットにおいて、画像の忠実性に関する最先端の手法を大幅に上回る。
- 参考スコア(独自算出の注目度): 112.50657646357494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have achieved great success in pluralistic image inpainting
recently. However, we find existing transformer based solutions regard each
pixel as a token, thus suffer from information loss issue from two aspects: 1)
They downsample the input image into much lower resolutions for efficiency
consideration, incurring information loss and extra misalignment for the
boundaries of masked regions. 2) They quantize $256^3$ RGB pixels to a small
number (such as 512) of quantized pixels. The indices of quantized pixels are
used as tokens for the inputs and prediction targets of transformer. Although
an extra CNN network is used to upsample and refine the low-resolution results,
it is difficult to retrieve the lost information back.To keep input information
as much as possible, we propose a new transformer based framework "PUT".
Specifically, to avoid input downsampling while maintaining the computation
efficiency, we design a patch-based auto-encoder P-VQVAE, where the encoder
converts the masked image into non-overlapped patch tokens and the decoder
recovers the masked regions from inpainted tokens while keeping the unmasked
regions unchanged. To eliminate the information loss caused by quantization, an
Un-Quantized Transformer (UQ-Transformer) is applied, which directly takes the
features from P-VQVAE encoder as input without quantization and regards the
quantized tokens only as prediction targets. Extensive experiments show that
PUT greatly outperforms state-of-the-art methods on image fidelity, especially
for large masked regions and complex large-scale datasets.
- Abstract(参考訳): トランスフォーマーは最近、多元的イメージインペインティングで大きな成功を収めている。
しかし、既存のトランスフォーマーベースのソリューションは、各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。
1)入力画像をより低い解像度に分解し、効率を考慮し、情報損失とマスク領域の境界の余分なずれを生じさせる。
2) 256^3$ RGB ピクセルを小さな数(例えば 512 など)の量子化ピクセルに量子化する。
量子化された画素のインデックスは、トランスの入力と予測ターゲットのトークンとして使用される。
予備のcnnネットワークは低分解能な結果をアップサンプリングして洗練するために用いられるが、失われた情報を取り出すのが困難であり、入力情報を可能な限り保持するため、新しいトランスフォーマーベースのフレームワーク「put」を提案する。
具体的には、計算効率を維持しつつ入力ダウンサンプリングを回避するために、エンコーダがマスク画像を非オーバーラップパッチトークンに変換するパッチベースのオートエンコーダp-vqvaeを設計、デコーダは、未マスク領域を変更せずに、被写体トークンからマスク領域を回復する。
量子化による情報損失を解消するため、P-VQVAEエンコーダの機能を量子化せずに直接入力とし、量子化トークンを予測対象としてのみ考慮するUn-Quantized Transformer(UQ-Transformer)を適用する。
大規模な実験では、PUTは画像の忠実性、特に大きなマスキング領域や複雑な大規模データセットにおいて、最先端の手法を大幅に上回っている。
関連論文リスト
- Symmetric Transformer-based Network for Unsupervised Image Registration [4.258536928793156]
本稿では,従来のトランスフォーマーのパラメータを低減する,畳み込みに基づく効率的なマルチヘッド自己アテンション(CEMSA)ブロックを提案する。
提案したCEMSAに基づいて,新しいSymmetric Transformer-based model(SymTrans)を提案する。
実験結果から,提案手法は画像登録における最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2022-04-28T15:45:09Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Multi-Tailed Vision Transformer for Efficient Inference [48.595574101874575]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Inpainting Transformer for Anomaly Detection [0.0]
Inpainting Transformer(InTra)は、多数のイメージパッチにカバーパッチを塗布するように訓練されている。
InTraは、検出とローカライゼーションのためのMVTec ADデータセットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T17:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。