論文の概要: Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation
- arxiv url: http://arxiv.org/abs/2506.21022v1
- Date: Thu, 26 Jun 2025 05:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.992179
- Title: Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation
- Title(参考訳): Instella-T2I:1次元離散宇宙画像生成の限界を押し上げる
- Authors: Ze Wang, Hao Chen, Benran Hu, Jiang Liu, Ximeng Sun, Jialian Wu, Yusheng Su, Xiaodong Yu, Emad Barsoum, Zicheng Liu,
- Abstract要約: 画像のコンパクトな離散表現のための1次元バイナリ画像ラテントを提案する。
提案手法は, 1次元ラテントのコンパクト性を維持しながら, 高分解能の細部を保存できる。
我々のテキスト・ツー・イメージモデルは、拡散と自己回帰の両方で競合する性能を達成した最初のモデルです。
- 参考スコア(独自算出の注目度): 27.795313102716726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image tokenization plays a critical role in reducing the computational demands of modeling high-resolution images, significantly improving the efficiency of image and multimodal understanding and generation. Recent advances in 1D latent spaces have reduced the number of tokens required by eliminating the need for a 2D grid structure. In this paper, we further advance compact discrete image representation by introducing 1D binary image latents. By representing each image as a sequence of binary vectors, rather than using traditional one-hot codebook tokens, our approach preserves high-resolution details while maintaining the compactness of 1D latents. To the best of our knowledge, our text-to-image models are the first to achieve competitive performance in both diffusion and auto-regressive generation using just 128 discrete tokens for images up to 1024x1024, demonstrating up to a 32-fold reduction in token numbers compared to standard VQ-VAEs. The proposed 1D binary latent space, coupled with simple model architectures, achieves marked improvements in speed training and inference speed. Our text-to-image models allow for a global batch size of 4096 on a single GPU node with 8 AMD MI300X GPUs, and the training can be completed within 200 GPU days. Our models achieve competitive performance compared to modern image generation models without any in-house private training data or post-training refinements, offering a scalable and efficient alternative to conventional tokenization methods.
- Abstract(参考訳): 画像トークン化は高解像度画像のモデリングにおける計算要求の低減に重要な役割を担い、画像の効率とマルチモーダル理解と生成を大幅に改善する。
1D遅延空間の最近の進歩は、2Dグリッド構造を不要にすることで必要となるトークンの数を減らした。
本稿では,1次元バイナリ画像ラテントを導入して,コンパクトな離散画像表現をさらに進める。
従来の1ホットコードブックトークンではなく、各イメージをバイナリベクトルの列として表現することにより、1Dラテントのコンパクト性を維持しながら高精細な詳細を保存できる。
我々の知る限り、私たちのテキスト・ツー・イメージモデルは、1024x1024までの画像に対して128個の離散トークンを使用して拡散と自動回帰生成の両方で競合性能を初めて達成し、標準的なVQ-VAEと比較して32倍のトークン数が減少することを示した。
提案した1Dバイナリラテント空間は、単純なモデルアーキテクチャと組み合わせて、スピードトレーニングと推論速度を大幅に改善する。
当社のテキスト・トゥ・イメージモデルでは,AMD MI300X GPUを8つ搭載した単一GPUノード上で4096のグローバルバッチサイズを実現しており,トレーニングは200GPU日以内で完了する。
我々のモデルは、社内のプライベートトレーニングデータやポストトレーニング後の改善なしに、現代の画像生成モデルと比較して、競争力のある性能を実現し、従来のトークン化手法に代わるスケーラブルで効率的な代替手段を提供する。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。
CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。
最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文 参考訳(メタデータ) (2024-12-20T20:32:02Z) - SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer [45.720721058671856]
SoftVQ-VAEは、ソフトカテゴリ後部を利用して複数のコードワードを各潜在トークンに集約する連続画像トークンである。
提案手法は,32または64個の1次元トークンを用いて256x256および512x512画像を圧縮する。
興味深いことに、SoftVQ-VAEは256x256画像を生成するために最大18倍の推論スループットを向上し、512x512画像に対して55倍である。
論文 参考訳(メタデータ) (2024-12-14T20:29:29Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。