論文の概要: WinTok: A Win-Win Hybrid Tokenizer via Decomposing Visual Understanding and Generation with Transferable Tokens
- arxiv url: http://arxiv.org/abs/2605.18115v1
- Date: Mon, 18 May 2026 09:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.225993
- Title: WinTok: A Win-Win Hybrid Tokenizer via Decomposing Visual Understanding and Generation with Transferable Tokens
- Title(参考訳): WinTok: 視覚的理解と生成を変換可能なトークンで分解するWin-Winハイブリッドトケナイザ
- Authors: Yiwei Guo, Shaobin Zhuang, Zhipeng Huang, Canmiao Fu, Chen Li, Jing Lyu, Yali Wang,
- Abstract要約: WinTokは視覚的理解と生成のためのハイブリットトークンである。
これは、学習可能なセマンティックトークンのセットでピクセルトークンを補完する。
WinTokは強力なベースラインであるUniTokを11.2%の精度で上回り、競争力のあるrFIDの0.41を達成している。
- 参考スコア(独自算出の注目度): 27.89104188378633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building a unified visual tokenizer is essential for bridging the gap between visual understanding and generation. Yet existing approaches struggle with the inherent conflict between these tasks, as a single token space is forced to support both high-level semantic abstraction and low-level pixel reconstruction. We propose WinTok, a concise hybrid tokenizer that achieves a win-win performance by explicitly decoupling the two objectives. WinTok supplements pixel tokens with a set of learnable semantic tokens, effectively mitigating cross-task interference without incurring the computational overhead of dual tokenizers. To further enhance understanding capability, we introduce an asymmetric token distillation mechanism: the semantic tokens are guided by pretrained semantic embeddings from any visual foundation model, enabling them to inherit strong discriminative power while maintaining flexibility. Across 10 challenging benchmarks, WinTok delivers consistent improvements in reconstruction, understanding, and generation. Trained on only 50M open-source data, WinTok surpasses the strong baseline UniTok by 11.2% in classification accuracy and achieves a competitive reconstruction rFID of 0.41, despite using substantially less training data. Code is released at https://github.com/markywg/WinTok.
- Abstract(参考訳): 視覚的理解と生成のギャップを埋めるためには、統一された視覚的トークン化器を構築することが不可欠である。
しかし、既存のアプローチは、高いレベルのセマンティック抽象化と低レベルのピクセル再構成の両方をサポートするために、これらのタスク間の固有の衝突に苦慮している。
我々は,2つの目的を明示的に切り離してウィンウィン性能を実現する,簡潔なハイブリットトークンであるWinTokを提案する。
WinTokは、学習可能なセマンティックトークンのセットでピクセルトークンを補完し、デュアルトークンの計算オーバーヘッドを発生させることなく、効果的にクロスタスク干渉を緩和する。
セマンティックトークンは任意の視覚基盤モデルからの事前学習されたセマンティック埋め込みによって誘導され、柔軟性を維持しつつ強力な識別力を継承することができる。
10の挑戦的なベンチマークで、WinTokは再構築、理解、生成において一貫した改善を提供する。
わずか5000万のオープンソースデータに基づいてトレーニングされたWinTokは、強力なベースラインであるUniTokを11.2%の精度で上回り、トレーニングデータはかなり少ないにもかかわらず、競争力のある復元rFIDの0.41を達成している。
コードはhttps://github.com/markywg/WinTok.comで公開されている。
関連論文リスト
- ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer [50.69959748410398]
我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
論文 参考訳(メタデータ) (2025-10-08T02:50:14Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation [80.90309237362526]
TokLIPは、ベクトル量子化(VQ)トークンを意味付けることで、理解を深めるビジュアルトークンライザである。
TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2025-05-08T17:12:19Z) - DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies [25.77487827338777]
再建のために訓練された視覚トークンーは、低レベルの知覚の詳細を捉えるのに優れる。
対照的な学習によって訓練された視覚エンコーダは、言語とよく一致しているが、生成タスクのためにピクセル空間に復号化するのに苦労する。
本稿では,単一のトークン化器内での理解と生成の両方の表現を統一する手法であるDualTokenを提案する。
論文 参考訳(メタデータ) (2025-03-18T14:56:46Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [63.23796622553615]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。