論文の概要: UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2602.14178v1
- Date: Sun, 15 Feb 2026 15:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.685143
- Title: UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model
- Title(参考訳): UniWeTok: Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model
- Authors: Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang,
- Abstract要約: 我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.68870074090426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Large Language Models (MLLMs) require a visual representation that simultaneously supports high-fidelity reconstruction, complex semantic extraction, and generative suitability. However, existing visual tokenizers typically struggle to satisfy these conflicting objectives within a single framework. In this paper, we introduce UniWeTok, a unified discrete tokenizer designed to bridge this gap using a massive binary codebook ($\mathit{2^{128}}$). For training framework, we introduce Pre-Post Distillation and a Generative-Aware Prior to enhance the semantic extraction and generative prior of the discrete tokens. In terms of model architecture, we propose a convolution-attention hybrid architecture with the SigLu activation function. SigLu activation not only bounds the encoder output and stabilizes the semantic distillation process but also effectively addresses the optimization conflict between token entropy loss and commitment loss. We further propose a three-stage training framework designed to enhance UniWeTok's adaptability cross various image resolutions and perception-sensitive scenarios, such as those involving human faces and textual content. On ImageNet, UniWeTok achieves state-of-the-art image generation performance (FID: UniWeTok 1.38 vs. REPA 1.42) while requiring a remarkably low training compute (Training Tokens: UniWeTok 33B vs. REPA 262B). On general-domain, UniWeTok demonstrates highly competitive capabilities across a broad range of tasks, including multimodal understanding, image generation (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), and editing (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). We release code and models to facilitate community exploration of unified tokenizer and MLLM.
- Abstract(参考訳): MLLM(Unified Multimodal Large Language Models)は、高忠実度再構成、複雑な意味抽出、生成的適合性を同時にサポートする視覚表現を必要とする。
しかし、既存のビジュアルトークンーザは、通常、単一のフレームワーク内でこれらの相反する目的を満たすのに苦労する。
本稿では、このギャップを埋めるために設計されたUniWeTokについて、大規模なバイナリコードブック($\mathit{2^{128}}$)を用いて紹介する。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
モデルアーキテクチャの観点からは、SigLuアクティベーション機能を備えた畳み込み型ハイブリッドアーキテクチャを提案する。
SigLuの活性化はエンコーダの出力を束縛し、セマンティック蒸留プロセスを安定化するだけでなく、トークンエントロピー損失とコミットメント損失の最適化競合に効果的に対処する。
さらに,UniWeTokの適応性を高めるための3段階のトレーニングフレームワークを提案する。
ImageNetでは、UniWeTokは最先端の画像生成性能(FID: UniWeTok 1.38 vs. REPA 1.42)を達成し、非常に低いトレーニング計算を必要とする(Training Tokens: UniWeTok 33B vs. REPA 262B)。
汎用ドメインでは、UniWeTokはマルチモーダル理解、画像生成(DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84)、編集(GEdit overall Score: UniWeTok 5.09 vs. OmniGen 5.06)を含む幅広いタスクで高い競争力を示す。
我々は、統一トークン化器とMLLMのコミュニティ探索を容易にするためのコードとモデルをリリースする。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [63.23796622553615]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z) - UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。
主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。
テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。
画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文 参考訳(メタデータ) (2025-02-08T02:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。