論文の概要: A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction
- arxiv url: http://arxiv.org/abs/2603.04980v1
- Date: Thu, 05 Mar 2026 09:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.16242
- Title: A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction
- Title(参考訳): Vanilla Next-token予測による理解・生成・編集を統一するためのシンプルなベースライン
- Authors: Jie Zhu, Hanghang Ma, Jia Wang, Yayong Guan, Yanbing Zeng, Lishuai Gao, Junqiang Wu, Jie Hu, Leye Wang,
- Abstract要約: マルチモーダル理解,画像生成,編集を統一するために,次世代の予測を活用する,シンプルな自己回帰ベースラインであるWallarooを導入する。
Wallarooは多解像度画像入力と出力をサポートし、中国語と英語の両方でバイリンガルをサポートする。
- 参考スコア(独自算出の注目度): 18.67411100452757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we introduce Wallaroo, a simple autoregressive baseline that leverages next-token prediction to unify multi-modal understanding, image generation, and editing at the same time. Moreover, Wallaroo supports multi-resolution image input and output, as well as bilingual support for both Chinese and English. We decouple the visual encoding into separate pathways and apply a four-stage training strategy to reshape the model's capabilities. Experiments are conducted on various benchmarks where Wallaroo produces competitive performance or exceeds other unified models, suggesting the great potential of autoregressive models in unifying multi-modality understanding and generation. Our code is available at https://github.com/JiePKU/Wallaroo.
- Abstract(参考訳): 本稿では,マルチモーダル理解,画像生成,編集を同時に統合するために,次点予測を活用するシンプルな自己回帰ベースラインであるWallarooを紹介する。
さらに、ワラルーは多解像度画像入力と出力をサポートし、中国語と英語の両方のバイリンガルサポートもサポートする。
視覚的エンコーディングを別々の経路に分離し、4段階のトレーニング戦略を適用してモデルの能力を再構築する。
実験は、ワラルーが競争性能を生んだり、他の統一モデルを超える様々なベンチマークで行われ、マルチモーダリティの理解と生成を統一する自己回帰モデルの大きな可能性を示唆している。
私たちのコードはhttps://github.com/JiePKU/Wallaroo.comで公開されています。
関連論文リスト
- NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation [66.92488610008519]
NextFlowは6兆個のインターリーブされたテキストイメージの離散トークンでトレーニングされたデコーダのみの自動回帰トランスフォーマーである。
統合された自己回帰アーキテクチャ内の統一された視覚表現を活用することで、NextFlowはマルチモーダル理解と生成機能を活性化する。
NextFlowは、統一されたモデルと、視覚的品質における特殊な拡散ベースラインの間で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-05T15:27:04Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - Show-o2: Improved Native Unified Multimodal Models [57.34173415412808]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。
3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文 参考訳(メタデータ) (2025-06-18T15:39:15Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Emu3: Next-Token Prediction is All You Need [45.142268281651035]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。
Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。
また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文 参考訳(メタデータ) (2024-09-27T16:06:11Z) - Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [71.24909962718128]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。