Fugu-MT 論文翻訳(概要): Reduce Information Loss in Transformers for Pluralistic Image Inpainting

論文の概要: Reduce Information Loss in Transformers for Pluralistic Image Inpainting

arxiv url: http://arxiv.org/abs/2205.05076v1
Date: Tue, 10 May 2022 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-12 20:28:50.073728
Title: Reduce Information Loss in Transformers for Pluralistic Image Inpainting
Title（参考訳）: 複数画像化のための変圧器の情報損失低減
Authors: Qiankun Liu and Zhentao Tan and Dongdong Chen and Qi Chu and Xiyang Dai and Yinpeng Chen and Mengchen Liu and Lu Yuan and Nenghai Yu
Abstract要約: 入力情報を可能な限り保持するための新しいトランスフォーマーベースのフレームワーク"PUT"を提案する。 PUTは、特に大きなマスキング領域と複雑な大規模データセットにおいて、画像の忠実性に関する最先端の手法を大幅に上回る。
参考スコア（独自算出の注目度）: 112.50657646357494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have achieved great success in pluralistic image inpainting recently. However, we find existing transformer based solutions regard each pixel as a token, thus suffer from information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration, incurring information loss and extra misalignment for the boundaries of masked regions. 2) They quantize $256^3$ RGB pixels to a small number (such as 512) of quantized pixels. The indices of quantized pixels are used as tokens for the inputs and prediction targets of transformer. Although an extra CNN network is used to upsample and refine the low-resolution results, it is difficult to retrieve the lost information back.To keep input information as much as possible, we propose a new transformer based framework "PUT". Specifically, to avoid input downsampling while maintaining the computation efficiency, we design a patch-based auto-encoder P-VQVAE, where the encoder converts the masked image into non-overlapped patch tokens and the decoder recovers the masked regions from inpainted tokens while keeping the unmasked regions unchanged. To eliminate the information loss caused by quantization, an Un-Quantized Transformer (UQ-Transformer) is applied, which directly takes the features from P-VQVAE encoder as input without quantization and regards the quantized tokens only as prediction targets. Extensive experiments show that PUT greatly outperforms state-of-the-art methods on image fidelity, especially for large masked regions and complex large-scale datasets.
Abstract（参考訳）: トランスフォーマーは最近、多元的イメージインペインティングで大きな成功を収めている。しかし、既存のトランスフォーマーベースのソリューションは、各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。 1)入力画像をより低い解像度に分解し、効率を考慮し、情報損失とマスク領域の境界の余分なずれを生じさせる。 2) 256^3$ RGB ピクセルを小さな数(例えば 512 など)の量子化ピクセルに量子化する。量子化された画素のインデックスは、トランスの入力と予測ターゲットのトークンとして使用される。予備のcnnネットワークは低分解能な結果をアップサンプリングして洗練するために用いられるが、失われた情報を取り出すのが困難であり、入力情報を可能な限り保持するため、新しいトランスフォーマーベースのフレームワーク「put」を提案する。具体的には、計算効率を維持しつつ入力ダウンサンプリングを回避するために、エンコーダがマスク画像を非オーバーラップパッチトークンに変換するパッチベースのオートエンコーダp-vqvaeを設計、デコーダは、未マスク領域を変更せずに、被写体トークンからマスク領域を回復する。量子化による情報損失を解消するため、P-VQVAEエンコーダの機能を量子化せずに直接入力とし、量子化トークンを予測対象としてのみ考慮するUn-Quantized Transformer(UQ-Transformer)を適用する。大規模な実験では、PUTは画像の忠実性、特に大きなマスキング領域や複雑な大規模データセットにおいて、最先端の手法を大幅に上回っている。

関連論文リスト

High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。本手法は,最先端モデルのFLOPを24～43%削減する。
論文参考訳（メタデータ） (2025-05-11T13:18:03Z)
Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-31T01:20:16Z)
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers [27.029600581635957]
本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。ビデオオブジェクト検出のための大規模データセット(ImageNet VID)と行動認識(EPIC-Kitchens 100)について評価を行った。
論文参考訳（メタデータ） (2023-08-25T17:10:12Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。 ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文参考訳（メタデータ） (2022-10-04T07:35:01Z)
MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-29T06:36:17Z)
Inpainting Transformer for Anomaly Detection [0.0]
Inpainting Transformer(InTra)は、多数のイメージパッチにカバーパッチを塗布するように訓練されている。 InTraは、検出とローカライゼーションのためのMVTec ADデータセットの最先端結果よりも優れている。
論文参考訳（メタデータ） (2021-04-28T17:27:44Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)
Visual Transformers: Token-based Image Representation and Processing for Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。 LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文参考訳（メタデータ） (2020-06-05T20:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。