Fugu-MT 論文翻訳(概要): Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

論文の概要: Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

arxiv url: http://arxiv.org/abs/2409.04410v2
Date: Wed, 22 Jan 2025 04:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:13.810803
Title: Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
Title（参考訳）: Open-MAGVIT2: 自己回帰型ビジュアルジェネレーションの民主化を目指すオープンソースプロジェクト
Authors: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan,
Abstract要約: 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。このプロジェクトは、GoogleのMAGVIT-v2トークンライザのオープンソースレプリケーションを生成する。 ImageNetの256倍の256$で、最先端の再構築性能(1.17 rFID)を実現している。
参考スコア（独自算出の注目度）: 74.15447383432262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., $2^{18}$ codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet $256 \times 256$. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.
Abstract（参考訳）: 3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。 Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンライザをオープンソースで複製し、超大型のコードブックを持つトークンライザ($2^{18}$コード)を作成し、ImageNet 256 \times 256$で最先端の再構築性能(1.17 rFID)を達成する。さらに、その応用をプレーンな自動回帰モデルで検討し、スケーラビリティ特性を検証する。超大語彙で予測する自己回帰モデルを支援するために、非対称なトークン因子化により異なる大きさの2つのサブ語彙に分解し、さらに「次のサブトークン予測」を導入し、生成品質を向上させるためにサブトークン相互作用を強化する。自動回帰視覚生成の分野でイノベーションと創造性を育むために、すべてのモデルとコードをリリースします。

関連論文リスト

Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling [80.30976039119236]
Lumina-mGPT 2.0はスタンドアロンのデコーダのみの自己回帰モデルである。完全にスクラッチからトレーニングされ、制限のないアーキテクチャ設計とライセンスの自由を可能にする。それは最先端の拡散モデルと同等に生成品質を達成する。
論文参考訳（メタデータ） (2025-07-23T17:42:13Z)
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。 ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文参考訳（メタデータ） (2025-07-11T09:32:45Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-11-15T18:54:42Z)
Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。 RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。 ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文参考訳（メタデータ） (2024-11-01T17:59:58Z)
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文参考訳（メタデータ） (2024-10-17T17:59:59Z)
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文参考訳（メタデータ） (2024-10-16T12:13:17Z)
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation [45.24970921978198]
本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。 DnD-Transformerは、新しい自己回帰方向、テクトモデル深さとシーケンス長方向を導入することで、画像のより多くのコードを予測する。リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティの理解を実証する。
論文参考訳（メタデータ） (2024-10-02T18:10:05Z)
MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文参考訳（メタデータ） (2024-09-24T16:12:12Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。 346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文参考訳（メタデータ） (2023-12-22T10:01:54Z)
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文参考訳（メタデータ） (2023-10-12T17:34:20Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。