論文の概要: Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation
- arxiv url: http://arxiv.org/abs/2511.01593v1
- Date: Mon, 03 Nov 2025 13:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.284297
- Title: Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation
- Title(参考訳): 統一理解・生成のためのウェーブ・パーティクル(連続離散)双対視覚トークン化
- Authors: Yizhu Chen, Chen Ju, Zhicheng Wang, Shuai Xiao, Xu Chen, Jinsong Lan, Xiaoyong Zhu, Ying Chen,
- Abstract要約: Continuous tokenizer (CT)は、複数の理解モジュールと生成モジュールをブリッジすることで、強力なパフォーマンスを実現する。
離散トークン化器(DT)は、各画像をプリミティブに定量化することで概念的にエレガントなアイデアを提供する。
我々はCDD-VT(Continuous-Discrete Dualistic Visual Tokenizer)を提案する。
- 参考スコア(独自算出の注目度): 20.2075487635278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unification of understanding and generation within a single multi-modal large model (MLLM) remains one significant challenge, largely due to the dichotomy between continuous and discrete visual tokenizations. Continuous tokenizer (CT) achieves strong performance by bridging multiple independently-trained understanding modules and generation modules, but suffers from complex multi-stage pipelines and substantial engineering overhead. Conversely, discrete tokenizers (DT) offer a conceptually elegant idea by quantizing each image into a primitive, but inevitably leading to information loss and performance degradation. To resolve this tension, we question the binary choice between CT and DT, inspired by the wave-particle duality of light, and propose the Continuous-Discrete Dualistic Visual Tokenizer (CDD-VT). We treat visual data as a flexible composition of image primitives derived from quantized codebooks, with the crucial insight that the primitive number assigned to each visual sample is adaptively determined according to its complexity: simple instances use a few primitives, emulating discrete tokenization, while complex instances use many, approximating continuous tokenization. Two core components are designed: Diverse Quantitative Primitives, which encourage primitives orthogonality to better populate information space, and Dynamic Primitive Allocator, which assesses sample complexity to determine the optimal set of primitives. Extensive experiments on reconstruction, retrieval and classification show that CDD-VT achieves superior performance over to specialized CT and DT, effectively getting strong result within a concise and scalable MLLM.
- Abstract(参考訳): 単一のマルチモーダル大モデル(MLLM)における理解と生成の統一は、主に連続的な視覚的トークン化と離散的な視覚的トークン化の分離によって、大きな課題となっている。
継続的トークンライザ(CT)は、独立に訓練された複数の理解モジュールと生成モジュールをブリッジすることで、高いパフォーマンスを達成するが、複雑なマルチステージパイプラインと、相当なエンジニアリングオーバーヘッドに悩まされる。
逆に、離散トークン化器(DT)は、各画像をプリミティブに定量化することで概念的にエレガントなアイデアを提供するが、必然的に情報損失と性能劣化につながる。
光の波動-粒子双対性に触発されたCTとDTのバイナリ選択に疑問を呈し,CDD-VT(Continuous-Discrete Dualistic Visual Tokenizer)を提案する。
我々は、視覚データを量子化されたコードブックから派生した画像プリミティブの柔軟な構成として扱い、各ビジュアルサンプルに割り当てられたプリミティブ数は、その複雑さに応じて適応的に決定されるという決定的な洞察を持つ:単純なインスタンスはいくつかのプリミティブを使用し、離散的なトークン化をエミュレートし、複雑なインスタンスは多数の連続的なトークン化を近似する。
2つの中核的なコンポーネントが設計されている: 情報空間をより良い場所にするためにプリミティブの直交を奨励するDiverse Quantical Primitivesと、プリミティブの最適なセットを決定するためにサンプルの複雑さを評価するDynamic Primitive Allocatorである。
また,CDD-VTはCTやDTよりも優れた性能を示し,簡潔でスケーラブルなMLLMにおいて良好な結果が得られた。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - MSDformer: Multi-scale Discrete Transformer For Time Series Generation [34.850082388835034]
マルチスケール離散変換器(MSDformer)と呼ばれる,マルチスケールDTMに基づく時系列生成手法を提案する。
MSDformerは、複数のスケールで離散トークン表現を学習するために、マルチスケールの時系列トークンーを使用しており、時系列データの複雑な性質を共同で特徴づけている。
実験により、MSDformerは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-05-20T11:01:36Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Latent Processes Identification From Multi-View Time Series [17.33428123777779]
本稿では,データ生成過程を逆転させて識別可能性を高めるために,コントラスト学習技術を用いた新しいフレームワークを提案する。
MuLTIは、最適輸送公式の確立によって、対応する重複変数をマージする置換機構を統合する。
論文 参考訳(メタデータ) (2023-05-14T14:21:58Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。