論文の概要: BitDance: Scaling Autoregressive Generative Models with Binary Tokens
- arxiv url: http://arxiv.org/abs/2602.14041v1
- Date: Sun, 15 Feb 2026 08:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.619564
- Title: BitDance: Scaling Autoregressive Generative Models with Binary Tokens
- Title(参考訳): BitDance: バイナリトークンによる自動回帰生成モデルのスケーリング
- Authors: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen,
- Abstract要約: BitDanceはスケーラブルな自動回帰(AR)イメージジェネレータで、コードブックインデックスの代わりにバイナリビジュアルトークンを予測する。
高エントロピーのバイナリラテントにより、BitDanceは各トークンが最大2256$の状態を表現し、コンパクトで表現性の高い離散表現を生成する。
テキストから画像を生成するために、BitDanceは大規模なマルチモーダルトークンを訓練し、高解像度のフォトリアリスティック画像を効率よく生成する。
- 参考スコア(独自算出の注目度): 40.717078635483766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to $2^{256}$ states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.
- Abstract(参考訳): 我々は、コードブックインデックスの代わりにバイナリビジュアルトークンを予測するスケーラブルな自動回帰(AR)イメージジェネレータBitDanceを紹介する。
高エントロピーのバイナリラテントを用いることで、BitDanceは各トークンが最大2^{256}$状態を表すことができ、コンパクトで表現性の高い離散表現が得られる。
このような巨大なトークン空間からサンプリングすることは、標準分類では難しい。
この問題を解決するためにBitDanceはバイナリ拡散ヘッドを使用し、インデックスをソフトマックスで予測するのではなく、連続空間拡散を用いてバイナリトークンを生成する。
さらに,複数のトークンを高い精度で並列に予測し,推論を大幅に高速化する新しい復号法であるnext-patchfusionを提案する。
ImageNet 256x256では、BitDanceは1.24のFIDを達成している。
次世代のパッチ拡散では、BitDanceは1.4Bパラメータを使用する最先端の並列ARモデルに勝り、5.4倍のパラメータ(260M)と8.7倍のスピードアップを実現している。
テキスト・ツー・イメージ生成では、BitDanceは大規模なマルチモーダルトークンをトレーニングし、高解像度のフォトリアリスティック画像を生成する。
1024x1024画像を生成する場合、BitDanceは従来のARモデルに比べて30倍以上のスピードアップを達成する。
ARファウンデーションモデルに関するさらなる研究を促進するために、コードとモデルをリリースします。
コードとモデルは、https://github.com/shallowdream204/BitDance.comで入手できる。
関連論文リスト
- Autoregressive Image Generation with Masked Bit Modeling [34.36577356251466]
Bit AutoRegressive Modeling (BAR)は任意のコードブックサイズをサポートするスケーラブルなフレームワークである。
BAR は ImageNet-256 上で 0.99 の最先端 gFID を新たに達成し、連続パラダイムと離散パラダイムの両方で先行する手法より優れている。
論文 参考訳(メタデータ) (2026-02-09T18:59:58Z) - Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation [27.795313102716726]
画像のコンパクトな離散表現のための1次元バイナリ画像ラテントを提案する。
提案手法は, 1次元ラテントのコンパクト性を維持しながら, 高分解能の細部を保存できる。
我々のテキスト・ツー・イメージモデルは、拡散と自己回帰の両方で競合する性能を達成した最初のモデルです。
論文 参考訳(メタデータ) (2025-06-26T05:48:36Z) - D-AR: Diffusion via Autoregressive Models [21.03363985989625]
Diffusion via Autoregressive Model (D-AR) は、画像拡散プロセスをバニラ自己回帰法として再キャストする新しいパラダイムである。
本手法は,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09個のFIDを実現する。
論文 参考訳(メタデータ) (2025-05-29T17:09:25Z) - ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models [37.65992612575692]
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
論文 参考訳(メタデータ) (2025-03-04T18:59:56Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Analog Bits: Generating Discrete Data using Diffusion Models with
Self-Conditioning [90.02873747873444]
ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。
提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。
MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
論文 参考訳(メタデータ) (2022-08-08T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。