Fugu-MT 論文翻訳(概要): NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

論文の概要: NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

arxiv url: http://arxiv.org/abs/2508.10711v1
Date: Thu, 14 Aug 2025 14:54:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-15 22:24:48.366425
Title: NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
Title（参考訳）: NextStep-1: 連続トークンによる自動回帰画像生成に向けて
Authors: NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu,
Abstract要約: NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端のパフォーマンスを実現する。本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。
参考スコア（独自算出の注目度）: 101.57871281101747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prevailing autoregressive (AR) models for text-to-image generation either rely on heavy, computationally-intensive diffusion models to process continuous image tokens, or employ vector quantization (VQ) to obtain discrete tokens with quantization loss. In this paper, we push the autoregressive paradigm forward with NextStep-1, a 14B autoregressive model paired with a 157M flow matching head, training on discrete text tokens and continuous image tokens with next-token prediction objectives. NextStep-1 achieves state-of-the-art performance for autoregressive models in text-to-image generation tasks, exhibiting strong capabilities in high-fidelity image synthesis. Furthermore, our method shows strong performance in image editing, highlighting the power and versatility of our unified approach. To facilitate open research, we will release our code and models to the community.
Abstract（参考訳）: テキストから画像への自己回帰(AR)モデルは、連続画像トークンを処理するために重くて計算集約的な拡散モデルに依存するか、ベクトル量子化(VQ)を用いて量子化損失を持つ離散トークンを得る。本稿では,157Mフローマッチングヘッドと組み合わせた14BオートレグレッシブモデルであるNextStep-1により,自己回帰パラダイムを推し進める。 NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端性能を実現し、高忠実度画像合成において強力な機能を示す。さらに,本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。オープンな研究を促進するため、私たちはコードとモデルをコミュニティに公開します。

論文の概要: NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

関連論文リスト