論文の概要: DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
- arxiv url: http://arxiv.org/abs/2503.14324v1
- Date: Tue, 18 Mar 2025 14:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:55.906982
- Title: DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
- Title(参考訳): DualToken: 視覚的理解と生成を両言語で統一する
- Authors: Wei Song, Yuran Wang, Zijia Song, Yadong Li, Haoze Sun, Weipeng Chen, Zenan Zhou, Jianhua Xu, Jiaqi Wang, Kaicheng Yu,
- Abstract要約: 再建のために訓練された視覚トークンーは、低レベルの知覚の詳細を捉えるのに優れる。
対照的な学習によって訓練された視覚エンコーダは、言語とよく一致しているが、生成タスクのためにピクセル空間に復号化するのに苦労する。
本稿では,単一のトークン化器内での理解と生成の両方の表現を統一する手法であるDualTokenを提案する。
- 参考スコア(独自算出の注目度): 25.77487827338777
- License:
- Abstract: The differing representation spaces required for visual understanding and generation pose a challenge in unifying them within the autoregressive paradigm of large language models. A vision tokenizer trained for reconstruction excels at capturing low-level perceptual details, making it well-suited for visual generation but lacking high-level semantic representations for understanding tasks. Conversely, a vision encoder trained via contrastive learning aligns well with language but struggles to decode back into the pixel space for generation tasks. To bridge this gap, we propose DualToken, a method that unifies representations for both understanding and generation within a single tokenizer. However, directly integrating reconstruction and semantic objectives in a single tokenizer creates conflicts, leading to degraded performance in both reconstruction quality and semantic performance. Instead of forcing a single codebook to handle both semantic and perceptual information, DualToken disentangles them by introducing separate codebooks for high and low-level features, effectively transforming their inherent conflict into a synergistic relationship. As a result, DualToken achieves state-of-the-art performance in both reconstruction and semantic tasks while demonstrating remarkable effectiveness in downstream MLLM understanding and generation tasks. Notably, we also show that DualToken, as a unified tokenizer, surpasses the naive combination of two distinct types vision encoders, providing superior performance within a unified MLLM.
- Abstract(参考訳): 視覚的理解と生成に必要な異なる表現空間は、大きな言語モデルの自己回帰パラダイム内でそれらを統一する上での課題である。
再建のために訓練された視覚トークンーは、低レベルの知覚の詳細を捉えるのに優れており、視覚生成には適しているが、タスクを理解するための高レベルの意味表現が欠如している。
対照的に、対照的な学習によって訓練された視覚エンコーダは言語とよく一致しているが、生成タスクのためにピクセル空間に復号するのは難しい。
このギャップを埋めるために、単一のトークン化器内での理解と生成の両方の表現を統一する手法であるDualTokenを提案する。
しかし、単一のトークン化器に再構成とセマンティックな目的を直接統合することで競合が生じ、再構成の品質とセマンティックなパフォーマンスが低下する。
意味的情報と知覚的情報の両方を扱うように1つのコードブックを強制するのではなく、DualTokenは、高低レベルの機能のための別々のコードブックを導入して、それらの固有の競合をシナジスティックな関係へと効果的に変換することで、それらを混乱させる。
その結果、DualTokenは、下流MLLM理解および生成タスクにおいて顕著な効果を示しながら、再構築タスクと意味タスクの両方において最先端のパフォーマンスを達成する。
また,DualTokenは2種類の視覚エンコーダの単純な組み合わせを超越し,MLLM内での優れた性能を実現していることを示す。
関連論文リスト
- QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - Towards the Next Frontier in Speech Representation Learning Using Disentanglement [34.21745744502759]
本稿では,フレームレベルと発話レベルのエンコーダモジュールから構成される音声の拡散自己監督学習(Learning2Diss)のためのフレームワークを提案する。
提案したLearn2Dissは,フレームレベルのエンコーダ表現が意味的タスクを改善する一方で,発話レベルの表現が非意味的なタスクを改善することにより,様々なタスクにおける最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-02T07:13:35Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。