論文の概要: Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
- arxiv url: http://arxiv.org/abs/2409.04410v2
- Date: Wed, 22 Jan 2025 04:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:37.209175
- Title: Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
- Title(参考訳): Open-MAGVIT2: 自己回帰型ビジュアルジェネレーションの民主化を目指すオープンソースプロジェクト
- Authors: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan,
- Abstract要約: 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。
このプロジェクトは、GoogleのMAGVIT-v2トークンライザのオープンソースレプリケーションを生成する。
ImageNetの256倍の256$で、最先端の再構築性能(1.17 rFID)を実現している。
- 参考スコア(独自算出の注目度): 74.15447383432262
- License:
- Abstract: We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., $2^{18}$ codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet $256 \times 256$. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.
- Abstract(参考訳): 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。
Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンライザをオープンソースで複製し、超大型のコードブックを持つトークンライザ($2^{18}$コード)を作成し、ImageNet 256 \times 256$で最先端の再構築性能(1.17 rFID)を達成する。
さらに、その応用をプレーンな自動回帰モデルで検討し、スケーラビリティ特性を検証する。
超大語彙で予測する自己回帰モデルを支援するために、非対称なトークン因子化により異なる大きさの2つのサブ語彙に分解し、さらに「次のサブトークン予測」を導入し、生成品質を向上させるためにサブトークン相互作用を強化する。
自動回帰視覚生成の分野でイノベーションと創造性を育むために、すべてのモデルとコードをリリースします。
関連論文リスト
- Learnings from Scaling Visual Tokenizers for Reconstruction and Generation [30.942443676393584]
自動エンコーディングによるビジュアルトークン化は、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを促進する。
私たちの研究は、この空白を埋めるために自動エンコーダのスケーリングを調査することを目的としています。
我々は、ImageNet-1Kを超える大規模な画像およびビデオデータセット上でViTokをトレーニングし、トークンのスケーリングに関するデータ制約を取り除く。
論文 参考訳(メタデータ) (2025-01-16T18:59:04Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation [45.24970921978198]
本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。
DnD-Transformerは、新しい自己回帰方向、テクトモデル深さとシーケンス長方向を導入することで、画像のより多くのコードを予測する。
リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティの理解を実証する。
論文 参考訳(メタデータ) (2024-10-02T18:10:05Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。