論文の概要: A Pytorch Reproduction of Masked Generative Image Transformer
- arxiv url: http://arxiv.org/abs/2310.14400v1
- Date: Sun, 22 Oct 2023 20:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:00:30.932911
- Title: A Pytorch Reproduction of Masked Generative Image Transformer
- Title(参考訳): マスク付き生成画像変換器のパイトーチ再生
- Authors: Victor Besnier and Mickael Chen
- Abstract要約: PyTorch を用いた MaskGIT: Masked Generative Image Transformer の再現について述べる。
このアプローチでは、マスク付き双方向トランスフォーマーアーキテクチャを活用することで、わずか数ステップで画像生成を可能にする。
本研究は,本論文で提示した結果と密接に一致した結果を得る。
- 参考スコア(独自算出の注目度): 4.205139792076062
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this technical report, we present a reproduction of MaskGIT: Masked
Generative Image Transformer, using PyTorch. The approach involves leveraging a
masked bidirectional transformer architecture, enabling image generation with
only few steps (8~16 steps) for 512 x 512 resolution images, i.e., ~64x faster
than an auto-regressive approach. Through rigorous experimentation and
optimization, we achieved results that closely align with the findings
presented in the original paper. We match the reported FID of 7.32 with our
replication and obtain 7.59 with similar hyperparameters on ImageNet at
resolution 512 x 512. Moreover, we improve over the official implementation
with some minor hyperparameter tweaking, achieving FID of 7.26. At the lower
resolution of 256 x 256 pixels, our reimplementation scores 6.80, in comparison
to the original paper's 6.18. To promote further research on Masked Generative
Models and facilitate their reproducibility, we released our code and
pre-trained weights openly at https://github.com/valeoai/MaskGIT-pytorch/
- Abstract(参考訳): 本稿では,PyTorch を用いた MaskGIT: Masked Generative Image Transformer の再現について述べる。
このアプローチはマスク付き双方向トランスフォーマーアーキテクチャを利用することで、512 x 512の解像度画像に対してわずか数ステップ(8〜16ステップ)のイメージ生成を可能にする。
厳密な実験と最適化により,本論文の成果と密接に一致した結果を得た。
報告された7.32のFIDとレプリケーションを一致させ、ImageNetの解像度512 x 512で同様のハイパーパラメータを持つ7.59を得る。
さらに,若干のハイパーパラメータの微調整による公式実装の改善を行い,FIDの7.26を達成した。
256 x 256ピクセルの解像度では、元の6.18ピクセルと比較して6.80倍になります。
Masked Generative Modelsのさらなる研究を促進し、再現性を促進するため、私たちはhttps://github.com/valeoai/MaskGIT-pytorch/でコードと事前学習したウェイトを公開しました。
関連論文リスト
- An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image
Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。
本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。
Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文 参考訳(メタデータ) (2022-04-02T10:55:11Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2mIoUという大きなマージンで、トランスフォーマーベースのモデルのビジョンバックボーンとしての可能性を実証しています。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。