論文の概要: Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
- arxiv url: http://arxiv.org/abs/2510.06590v1
- Date: Wed, 08 Oct 2025 02:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.26703
- Title: Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
- Title(参考訳): Ming-UniVision:統合型連続トケナイザによる画像理解と生成
- Authors: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou,
- Abstract要約: 我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
- 参考スコア(独自算出の注目度): 50.69959748410398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tokenization remains a core challenge in unifying visual understanding and generation within the autoregressive paradigm. Existing methods typically employ tokenizers in discrete latent spaces to align with the tokens from large language models, where the quantization errors can limit semantic expressiveness and degrade the capability of vision-language understanding. To address this, we introduce MingTok, a new family of visual tokenizers with a continuous latent space, for unified autoregressive generation and understanding. While understanding tasks favor discriminative high-dimensional features, generation tasks prefer compact low-level codes. Thus, to reconcile these competing demands, MingTok adopts a three-stage sequential architecture involving low-level encoding, semantic expansion, and visual reconstruction. Built on top of it, Ming-UniVision eliminates the need for task-specific visual representations, and unifies diverse vision-language tasks under a single autoregrsssive prediction paradigm. By formulating both understanding and generation as next-token prediction in a shared continuous space, it seamlessly supports multi-round, in-context tasks such as iterative understanding, generation and editing. Empirically, we find that using a unified continuous visual representation reconciles the competing requirements on the tokenizers by the understanding and generation tasks, thereby leading to state-of-the-art level performance across both domains. We hope our findings will facilitate unified visual tokenization in the continuous domain. Inference code and model weights are released to benefit community.
- Abstract(参考訳): 視覚的トークン化は、自己回帰パラダイム内で視覚的理解と生成を統合する上で、依然として中心的な課題である。
既存の手法では、離散潜在空間におけるトークン化器を用いて大きな言語モデルのトークンと整合し、量子化誤差は意味表現性を制限し、視覚言語理解の能力を低下させる。
これを解決するために、私たちは、連続的な潜伏空間を持つ視覚トークンの新たなファミリーであるMingTokを導入し、自己回帰生成と理解を統一する。
理解タスクは差別的な高次元特徴を好むが、生成タスクはコンパクトな低レベルコードを好む。
したがって、これらの競合する要求を解決するために、MingTokは低レベルエンコーディング、セマンティック展開、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用する。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
共有された連続空間における理解と生成の両方を次世代の予測として定式化することにより、反復的理解、生成、編集といったマルチラウンドのコンテキスト内タスクをシームレスにサポートする。
経験的に、統合された連続的な視覚表現を使用することで、トークン化の競合要件を理解および生成タスクによって調整し、両方のドメインで最先端のパフォーマンスを実現する。
私たちの発見が、継続的なドメインにおける統一的な視覚的トークン化を促進することを願っています。
推論コードとモデルの重み付けはコミュニティに利益をもたらすためにリリースされます。
関連論文リスト
- UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies [25.77487827338777]
再建のために訓練された視覚トークンーは、低レベルの知覚の詳細を捉えるのに優れる。
対照的な学習によって訓練された視覚エンコーダは、言語とよく一致しているが、生成タスクのためにピクセル空間に復号化するのに苦労する。
本稿では,単一のトークン化器内での理解と生成の両方の表現を統一する手法であるDualTokenを提案する。
論文 参考訳(メタデータ) (2025-03-18T14:56:46Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。