論文の概要: Transformer based Pluralistic Image Completion with Reduced Information Loss
- arxiv url: http://arxiv.org/abs/2404.00513v1
- Date: Sun, 31 Mar 2024 01:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:20:34.703928
- Title: Transformer based Pluralistic Image Completion with Reduced Information Loss
- Title(参考訳): 情報損失を低減したトランスフォーマーによる複数画像補完
- Authors: Qiankun Liu, Yuqi Jiang, Zhentao Tan, Dongdong Chen, Ying Fu, Qi Chu, Gang Hua, Nenghai Yu,
- Abstract要約: トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.92754600354199
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer based methods have achieved great success in image inpainting recently. However, we find that these solutions regard each pixel as a token, thus suffering from an information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration. 2) They quantize $256^3$ RGB values to a small number (such as 512) of quantized color values. The indices of quantized pixels are used as tokens for the inputs and prediction targets of the transformer. To mitigate these issues, we propose a new transformer based framework called "PUT". Specifically, to avoid input downsampling while maintaining computation efficiency, we design a patch-based auto-encoder P-VQVAE. The encoder converts the masked image into non-overlapped patch tokens and the decoder recovers the masked regions from the inpainted tokens while keeping the unmasked regions unchanged. To eliminate the information loss caused by input quantization, an Un-quantized Transformer is applied. It directly takes features from the P-VQVAE encoder as input without any quantization and only regards the quantized tokens as prediction targets. Furthermore, to make the inpainting process more controllable, we introduce semantic and structural conditions as extra guidance. Extensive experiments show that our method greatly outperforms existing transformer based methods on image fidelity and achieves much higher diversity and better fidelity than state-of-the-art pluralistic inpainting methods on complex large-scale datasets (e.g., ImageNet). Codes are available at https://github.com/liuqk3/PUT.
- Abstract(参考訳): トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
しかし、これらのソリューションは各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。
1) 効率を考慮し, 入力画像をはるかに低い解像度に分解する。
2) 256^3$ RGB の値を小さな数(例えば 512 など)に量子化する。
量子化されたピクセルのインデックスは、トランスの入力および予測ターゲットのトークンとして使用される。
これらの問題を緩和するために、我々は"PUT"と呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
具体的には、計算効率を保ちながら入力ダウンサンプリングを回避するため、パッチベースの自動エンコーダP-VQVAEを設計する。
エンコーダは、マスクされた画像を非オーバーラップされたパッチトークンに変換し、デコーダは、アンマスクされた領域を一定に保ちつつ、インペイントされたトークンからマスクされた領域を復元する。
入力量子化による情報損失を解消するため、Un-quantized Transformerを適用する。
P-VQVAEエンコーダの機能を量子化せずに入力とし、量子化トークンを予測ターゲットとみなす。
さらに, 塗布プロセスをより制御しやすくするために, 意味的および構造的条件を付加的なガイダンスとして導入する。
本手法は, 画像の忠実度に基づくトランスフォーマー法を著しく上回り, 複雑な大規模データセット(画像Netなど)上で, 最先端の多元的インペイント法よりもはるかに高い多様性と忠実度が得られることを示す。
コードはhttps://github.com/liuqk3/PUTで入手できる。
関連論文リスト
- Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。
我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-07-20T11:30:12Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Reduce Information Loss in Transformers for Pluralistic Image Inpainting [112.50657646357494]
入力情報を可能な限り保持するための新しいトランスフォーマーベースのフレームワーク"PUT"を提案する。
PUTは、特に大きなマスキング領域と複雑な大規模データセットにおいて、画像の忠実性に関する最先端の手法を大幅に上回る。
論文 参考訳(メタデータ) (2022-05-10T17:59:58Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。