論文の概要: An Image is Worth 32 Tokens for Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2406.07550v1
- Date: Tue, 11 Jun 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:26:16.181247
- Title: An Image is Worth 32 Tokens for Reconstruction and Generation
- Title(参考訳): 復元・生成のための32のトークンのイメージ
- Authors: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen,
- Abstract要約: Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
- 参考スコア(独自算出の注目度): 54.24414696392026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative models have highlighted the crucial role of image tokenization in the efficient synthesis of high-resolution images. Tokenization, which transforms images into latent representations, reduces computational demands compared to directly processing pixels and enhances the effectiveness and efficiency of the generation process. Prior methods, such as VQGAN, typically utilize 2D latent grids with fixed downsampling factors. However, these 2D tokenizations face challenges in managing the inherent redundancies present in images, where adjacent regions frequently display similarities. To overcome this issue, we introduce Transformer-based 1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images into 1D latent sequences. TiTok provides a more compact latent representation, yielding substantially more efficient and effective representations than conventional techniques. For example, a 256 x 256 x 3 image can be reduced to just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens obtained by prior methods. Despite its compact nature, TiTok achieves competitive performance to state-of-the-art approaches. Specifically, using the same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages of TiTok become even more significant when it comes to higher resolution. At ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image tokens by 64x, leading to 410x faster generation process. Our best-performing variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still generating high-quality samples 74x faster.
- Abstract(参考訳): 生成モデルの最近の進歩は、高解像度画像の効率的な合成における画像トークン化の重要な役割を強調している。
画像が潜在表現に変換されるトークン化は、画素を直接処理するよりも計算要求が小さくなり、生成プロセスの有効性と効率が向上する。
VQGANのような従来の手法では、固定されたダウンサンプリング係数を持つ2次元潜伏格子を用いるのが一般的である。
しかし、これらの2Dトークン化は、画像に存在する固有の冗長性を管理する上で困難に直面する。
この問題を解決するために,Transformerベースの1次元トケナイザ(TiTok)を導入する。
TiTokはよりコンパクトな潜在表現を提供し、従来の手法よりもはるかに効率的で効果的な表現をもたらす。
例えば、256 x 256 x 3の画像は32個の離散トークンに縮小することができ、以前の方法で得られた256または1024個のトークンから大幅に削減される。
コンパクトな性質にもかかわらず、TiTokは最先端のアプローチと競合する性能を実現している。
具体的には、同じジェネレータフレームワークを使用して、TiTokは1.97 gFIDに達し、ImageNet 256 x 256ベンチマークでMaskGITベースラインを4.21倍に上回っている。
TiTokの利点は、高解像度に関してさらに重要になる。
ImageNet 512 x 512ベンチマークでは、TiTokは最先端の拡散モデルであるDiT-XL/2(gFID 2.74 vs. 3.04)を上回るだけでなく、画像トークンを64倍削減し、410倍高速な生成プロセスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
関連論文リスト
- Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - A Pytorch Reproduction of Masked Generative Image Transformer [4.205139792076062]
PyTorch を用いた MaskGIT: Masked Generative Image Transformer の再現について述べる。
このアプローチでは、マスク付き双方向トランスフォーマーアーキテクチャを活用することで、わずか数ステップで画像生成を可能にする。
本研究は,本論文で提示した結果と密接に一致した結果を得る。
論文 参考訳(メタデータ) (2023-10-22T20:21:11Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image
Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。
本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。
Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文 参考訳(メタデータ) (2022-04-02T10:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。