論文の概要: Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
- arxiv url: http://arxiv.org/abs/2409.04410v2
- Date: Wed, 22 Jan 2025 04:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:37.209175
- Title: Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
- Title(参考訳): Open-MAGVIT2: 自己回帰型ビジュアルジェネレーションの民主化を目指すオープンソースプロジェクト
- Authors: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan,
- Abstract要約: 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。
このプロジェクトは、GoogleのMAGVIT-v2トークンライザのオープンソースレプリケーションを生成する。
ImageNetの256倍の256$で、最先端の再構築性能(1.17 rFID)を実現している。
- 参考スコア(独自算出の注目度): 74.15447383432262
- License:
- Abstract: We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., $2^{18}$ codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet $256 \times 256$. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.
- Abstract(参考訳): 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。
Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンライザをオープンソースで複製し、超大型のコードブックを持つトークンライザ($2^{18}$コード)を作成し、ImageNet 256 \times 256$で最先端の再構築性能(1.17 rFID)を達成する。
さらに、その応用をプレーンな自動回帰モデルで検討し、スケーラビリティ特性を検証する。
超大語彙で予測する自己回帰モデルを支援するために、非対称なトークン因子化により異なる大きさの2つのサブ語彙に分解し、さらに「次のサブトークン予測」を導入し、生成品質を向上させるためにサブトークン相互作用を強化する。
自動回帰視覚生成の分野でイノベーションと創造性を育むために、すべてのモデルとコードをリリースします。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation [45.24970921978198]
本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。
DnD-Transformerは、新しい自己回帰方向、テクトモデル深さとシーケンス長方向を導入することで、画像のより多くのコードを予測する。
リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティの理解を実証する。
論文 参考訳(メタデータ) (2024-10-02T18:10:05Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。