論文の概要: MaskGIT: Masked Generative Image Transformer
- arxiv url: http://arxiv.org/abs/2202.04200v1
- Date: Tue, 8 Feb 2022 23:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:12:14.198943
- Title: MaskGIT: Masked Generative Image Transformer
- Title(参考訳): maskgit: マスク付き生成画像トランスフォーマー
- Authors: Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T. Freeman
- Abstract要約: MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 49.074967597485475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative transformers have experienced rapid popularity growth in the
computer vision community in synthesizing high-fidelity and high-resolution
images. The best generative transformer models so far, however, still treat an
image naively as a sequence of tokens, and decode an image sequentially
following the raster scan ordering (i.e. line-by-line). We find this strategy
neither optimal nor efficient. This paper proposes a novel image synthesis
paradigm using a bidirectional transformer decoder, which we term MaskGIT.
During training, MaskGIT learns to predict randomly masked tokens by attending
to tokens in all directions. At inference time, the model begins with
generating all tokens of an image simultaneously, and then refines the image
iteratively conditioned on the previous generation. Our experiments demonstrate
that MaskGIT significantly outperforms the state-of-the-art transformer model
on the ImageNet dataset, and accelerates autoregressive decoding by up to 64x.
Besides, we illustrate that MaskGIT can be easily extended to various image
editing tasks, such as inpainting, extrapolation, and image manipulation.
- Abstract(参考訳): 生成トランスフォーマーは、高精細で高解像度な画像を合成するコンピュータビジョンコミュニティで急速に普及した。
しかし、最も優れた生成トランスフォーマーモデルは、依然として画像をトークンのシーケンスとしてナイーブに扱い、ラスタースキャン順序(すなわちラインバイライン)に従って順次デコードする。
この戦略は最適でも効率的でもない。
本稿では,MskGITと呼ばれる双方向トランスフォーマーデコーダを用いた新しい画像合成パラダイムを提案する。
トレーニング中、MaskGITはあらゆる方向のトークンに出席することでランダムにマスクされたトークンを予測することを学ぶ。
推論時に、モデルは画像の全トークンを同時に生成し、その後、前世代に反復的に条件付けされた画像を洗練する。
実験の結果,MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルよりも優れており,自己回帰デコーディングを最大64倍高速化することがわかった。
また,MaskGITはインペイント,外挿,画像操作など,様々な画像編集タスクに容易に拡張できることを示す。
関連論文リスト
- Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - M2T: Masking Transformers Twice for Faster Decoding [39.6722311745861]
マスク付きトークン予測のために訓練された双方向トランスフォーマーが、ニューラル画像圧縮にどのように適用できるかを示す。
我々は,事前定義された決定論的スケジュールが画像圧縮にも有効であることを示す。
論文 参考訳(メタデータ) (2023-04-14T14:25:44Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - Improved Masked Image Generation with Token-Critic [16.749458173904934]
本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
論文 参考訳(メタデータ) (2022-09-09T17:57:21Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。