論文の概要: TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2505.05422v1
- Date: Thu, 08 May 2025 17:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.974623
- Title: TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation
- Title(参考訳): TokLIP: マルチモーダル理解と生成のためのCLIPにビジュアルトークンをマージする
- Authors: Haokun Lin, Teng Wang, Yixiao Ge, Yuying Ge, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun, Ying Shan,
- Abstract要約: TokLIPは、ベクトル量子化(VQ)トークンを意味付けることで、理解を深めるビジュアルトークンライザである。
TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
- 参考スコア(独自算出の注目度): 80.90309237362526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pioneering token-based works such as Chameleon and Emu3 have established a foundation for multimodal unification but face challenges of high training computational overhead and limited comprehension performance due to a lack of high-level semantics. In this paper, we introduce TokLIP, a visual tokenizer that enhances comprehension by semanticizing vector-quantized (VQ) tokens and incorporating CLIP-level semantics while enabling end-to-end multimodal autoregressive training with standard VQ tokens. TokLIP integrates a low-level discrete VQ tokenizer with a ViT-based token encoder to capture high-level continuous semantics. Unlike previous approaches (e.g., VILA-U) that discretize high-level features, TokLIP disentangles training objectives for comprehension and generation, allowing the direct application of advanced VQ tokenizers without the need for tailored quantization operations. Our empirical results demonstrate that TokLIP achieves exceptional data efficiency, empowering visual tokens with high-level semantic understanding while enhancing low-level generative capacity, making it well-suited for autoregressive Transformers in both comprehension and generation tasks. The code and models are available at https://github.com/TencentARC/TokLIP.
- Abstract(参考訳): ChameleonやEmu3といったトークンベースの作品のパイオニア化は、マルチモーダル統一の基礎を確立しているが、高レベルのセマンティクスが欠如しているため、高いトレーニング計算オーバーヘッドと限定的な理解性能の課題に直面している。
本稿では,ベクトル量子化(VQ)トークンのセマンティック化とCLIPレベルのセマンティクスの導入により,標準VQトークンによるエンドツーエンドのマルチモーダル自動回帰トレーニングを実現することで,理解を深める視覚トークン化ツールTokLIPを紹介する。
TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
ハイレベルな特徴を識別する従来のアプローチ(例えばVILA-U)とは異なり、TokLIPは理解と生成のためのトレーニング目標を混乱させ、量子化操作を調整せずに高度なVQトークンライザを直接適用できるようにする。
実験の結果,TokLIPは,高レベルな意味理解と低レベルな生成能力の向上を両立させながら,視覚トークンを高レベルな意味理解で実現し,理解と生成の両タスクにおける自己回帰変換に適していることが示された。
コードとモデルはhttps://github.com/TencentARC/TokLIPで公開されている。
関連論文リスト
- BRIDLE: Generalized Self-supervised Learning with Quantization [15.121857164574704]
自己教師付き学習は、さまざまな領域にわたるラベルなしデータから意味のある表現を学ぶための強力なアプローチである。
BERTが自然言語処理において双方向の深いコンテキストを捉えることに触発されて、同様のフレームワークがオーディオなどの他のモダリティに適応している。
本稿では、残留量子化を双方向学習プロセスに組み込んだ自己教師型事前学習フレームワークBRIDLEを紹介する。
論文 参考訳(メタデータ) (2025-02-04T08:54:06Z) - Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。
本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。
実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:43:21Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。