論文の概要: NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2601.02204v1
- Date: Mon, 05 Jan 2026 15:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.243398
- Title: NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
- Title(参考訳): NextFlow: 統合シーケンスモデリングはマルチモーダル理解と生成を活性化する
- Authors: Huichao Zhang, Liao Qu, Yiheng Liu, Hang Chen, Yangyang Song, Yongsheng Dong, Shikun Sun, Xian Li, Xu Wang, Yi Jiang, Hu Ye, Bo Chen, Yiming Gao, Peng Liu, Akide Liu, Zhipeng Yang, Qili Deng, Linjie Xing, Jiyang Liu, Zhao Wang, Yang Zhou, Mingcong Liu, Yi Zhang, Qian He, Xiwei Hu, Zhongqi Qi, Jie Shao, Zhiye Fu, Shuai Wang, Fangmin Chen, Xuezhi Chai, Zhihua Wu, Yitong Wang, Zehuan Yuan, Daniel K. Du, Xinglong Wu,
- Abstract要約: NextFlowは6兆個のインターリーブされたテキストイメージの離散トークンでトレーニングされたデコーダのみの自動回帰トランスフォーマーである。
統合された自己回帰アーキテクチャ内の統一された視覚表現を活用することで、NextFlowはマルチモーダル理解と生成機能を活性化する。
NextFlowは、統一されたモデルと、視覚的品質における特殊な拡散ベースラインの間で、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.92488610008519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NextFlow, a unified decoder-only autoregressive transformer trained on 6 trillion interleaved text-image discrete tokens. By leveraging a unified vision representation within a unified autoregressive architecture, NextFlow natively activates multimodal understanding and generation capabilities, unlocking abilities of image editing, interleaved content and video generation. Motivated by the distinct nature of modalities - where text is strictly sequential and images are inherently hierarchical - we retain next-token prediction for text but adopt next-scale prediction for visual generation. This departs from traditional raster-scan methods, enabling the generation of 1024x1024 images in just 5 seconds - orders of magnitude faster than comparable AR models. We address the instabilities of multi-scale generation through a robust training recipe. Furthermore, we introduce a prefix-tuning strategy for reinforcement learning. Experiments demonstrate that NextFlow achieves state-of-the-art performance among unified models and rivals specialized diffusion baselines in visual quality.
- Abstract(参考訳): 我々は、6兆個のインターリーブされたテキストイメージの離散トークンに基づいてトレーニングされた、統一デコーダのみの自己回帰トランスフォーマであるNextFlowを提案する。
統合された自己回帰アーキテクチャ内で統一された視覚表現を活用することで、NextFlowはマルチモーダル理解と生成能力をネイティブに活性化し、画像編集、インターリーブされたコンテンツ、ビデオ生成の能力を解放する。
テキストが厳密にシーケンシャルであり、画像が本質的に階層的であるという、モダリティの独特な性質に動機づけられた私たちは、テキストの次のトーケン予測を維持しますが、ビジュアル生成の次のスケール予測を採用しています。
これは従来のラスタスキャンの手法とは違って,1024x1024イメージをわずか5秒で生成可能にする。
我々は、堅牢なトレーニングレシピを通じて、マルチスケール生成の不安定性に対処する。
さらに,強化学習のためのプレフィックスチューニング戦略を導入する。
実験により、NextFlowは統一モデルと競合する視覚的品質の拡散ベースラインの間で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文 参考訳(メタデータ) (2025-02-27T15:08:39Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。