論文の概要: Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.04431v1
- Date: Thu, 05 Dec 2024 18:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:31.837622
- Title: Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
- Title(参考訳): Infinity:高分解能画像合成のためのビットワイズ自己回帰モデリング
- Authors: Jian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu,
- Abstract要約: Infinity(インフィニティ)は、高解像度のフォトリアリスティック画像を生成することができるビットワイズビジュアルオートレグレッシブ・モデリングである。
我々は、無限語彙トークン化器と分類器とビットワイズ自己補正機構を用いて、ビットワイズトークン予測フレームワークの下で視覚自己回帰モデルを再定義する。
- 参考スコア(独自算出の注目度): 35.84683175287611
- License:
- Abstract: We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of generating high-resolution, photorealistic images following language instruction. Infinity redefines visual autoregressive model under a bitwise token prediction framework with an infinite-vocabulary tokenizer & classifier and bitwise self-correction mechanism, remarkably improving the generation capacity and details. By theoretically scaling the tokenizer vocabulary size to infinity and concurrently scaling the transformer size, our method significantly unleashes powerful scaling capabilities compared to vanilla VAR. Infinity sets a new record for autoregressive text-to-image models, outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably, Infinity surpasses SD3-Medium by improving the GenEval benchmark score from 0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a win rate of 66%. Without extra optimization, Infinity generates a high-quality 1024x1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and establishing it as the fastest text-to-image model. Models and codes will be released to promote further exploration of Infinity for visual generation and unified tokenizer modeling.
- Abstract(参考訳): Infinity(インフィニティ)は、高解像度のフォトリアリスティック画像を生成することができるビットワイズビジュアルオートレグレッシブ・モデリングである。
Infinityは、無限語彙のトークン化器と分類器とビット単位の自己補正機構を備えたビットワイズトークン予測フレームワークの下で、視覚的自己回帰モデルを再定義し、生成能力と詳細を著しく改善する。
理論的には、トークン化語彙を無限大に拡張し、トランスフォーマーサイズを同時スケーリングすることで、バニラVARに比べて強力なスケーリング能力が著しく解放される。
Infinityは、SD3-MediumやSDXLといった最上位の拡散モデルよりも優れた自動回帰テキスト・画像モデルのための新しい記録を設定している。
特に、Infinity は GenEval ベンチマークスコアを 0.62 から 0.73 に改善し、ImageReward ベンチマークスコアを 0.87 から 0.96 に改善して SD3-Medium を超え、勝利率は 66% に達した。
余分な最適化がなければ、Infinityは高品質の1024x1024画像を0.8秒で生成し、SD3-Mediumの2.6倍高速となり、最速のテキスト・ツー・イメージモデルとして確立した。
モデルとコードは、ビジュアルジェネレーションと統一トークンエーザモデリングのためのInfinityのさらなる探索を促進するためにリリースされる。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation [74.15447383432262]
3Mから1.5Bまでの自己回帰画像生成モデルであるOpen-MAGVIT2を提案する。
このプロジェクトは、GoogleのMAGVIT-v2トークンライザのオープンソースレプリケーションを生成する。
ImageNetの256倍の256$で、最先端の再構築性能(1.17 rFID)を実現している。
論文 参考訳(メタデータ) (2024-09-06T17:14:53Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。