論文の概要: UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2506.20214v1
- Date: Wed, 25 Jun 2025 07:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.653204
- Title: UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation
- Title(参考訳): UniCode$^2$: 統一マルチモーダル理解と生成のための大規模コードブック
- Authors: Yanzhe Chen, Huasong Zhong, Yan Li, Zhenheng Yang,
- Abstract要約: 大規模でセマンティックに整合し、安定した視覚的トークン化を可能にするケースケードコードブックフレームワークであるUniCode$2$を提案する。
数百万のSigLIPシーケンスの埋め込みをクラスタ化することにより、500Kエントリのコードブックを構築します。
UniCode2は、さまざまなベンチマークで強力なパフォーマンスを提供し、安定性、セマンティクス、モジュール性を犠牲にすることなく、ビジュアルトークン空間をスケールできることを実証している。
- 参考スコア(独自算出の注目度): 5.286124283204446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal large language models (MLLMs) have shown promise in jointly advancing multimodal understanding and generation, with visual codebooks discretizing images into tokens for autoregressive modeling. Existing codebook-based methods either rely on small vocabularies (~16K entries) that lack fine-grained semantics or naively scale up, resulting in low token utilization and unstable training. We propose UniCode$^2$, a cascaded codebook framework enabling large-scale, semantically aligned, and stable visual tokenization. By clustering millions of SigLIP sequence embeddings, we build a 500K-entry codebook that preserves vision-language alignment while expanding capacity. Stability is ensured via a cascaded design: a frozen codebook anchors the embedding space, and a trainable codebook refines task-specific semantics. This decoupling promotes high utilization and robust learning. Moreover, the alignment of our visual tokens with textual semantics enables seamless integration with pretrained diffusion decoders, supporting high-quality visual synthesis with minimal adaptation. UniCode^2 delivers strong performance across diverse benchmarks, demonstrating the viability of scaling visual token spaces without sacrificing stability, semantics, or modularity.
- Abstract(参考訳): MLLM(Unified Multimodal Large Language Model)は、マルチモーダル理解と生成を共同で進め、視覚コードブックでイメージを自動回帰モデリングのためのトークンに識別する。
既存のコードブックベースのメソッドは、細粒度のセマンティクスに欠ける小さな語彙(~16Kエントリ)に依存しているか、あるいはNaivelyにスケールアップしているため、トークン利用の低さと不安定なトレーニングをもたらす。
大規模でセマンティックに整合し、安定した視覚的トークン化を可能にするケースケードコードブックフレームワークであるUniCode$^2$を提案する。
数百万のSigLIPシーケンスの埋め込みをクラスタ化することにより、500Kエントリのコードブックを構築します。
凍結されたコードブックは埋め込みスペースをアンカーし、トレーニング可能なコードブックはタスク固有のセマンティクスを洗練します。
この分離は高い利用率と堅牢な学習を促進する。
さらに,テキストセマンティクスによる視覚トークンのアライメントにより,事前訓練された拡散復号器とのシームレスな統合が可能となり,最小限の適応で高品質な視覚合成が可能となった。
UniCode^2は、さまざまなベンチマークで強力なパフォーマンスを提供し、安定性、セマンティクス、モジュール性を犠牲にすることなく、ビジュアルトークン空間をスケールできることを実証する。
関連論文リスト
- Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation [71.68085485928007]
我々はSemHiTokを紹介した。Semantic-Guided Hierarchical codebookによる統合画像トークンである。
本稿では,LLaVA-v1.5設定下での画像再構成とマルチモーダル理解において,SemHiTokがSOTA性能を実現することを示す。
また、SemHiTokを用いた統合MLLMを開発し、マルチモーダル理解および生成タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-09T20:42:34Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [69.09699034036124]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。
UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文 参考訳(メタデータ) (2024-03-14T03:29:58Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。