論文の概要: UniTok: A Unified Tokenizer for Visual Generation and Understanding
- arxiv url: http://arxiv.org/abs/2502.20321v1
- Date: Thu, 27 Feb 2025 17:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:45.978231
- Title: UniTok: A Unified Tokenizer for Visual Generation and Understanding
- Title(参考訳): UniTok: ビジュアル生成と理解のための統一トケナイザ
- Authors: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi,
- Abstract要約: 我々は、UniTokを紹介した。UniTokは、個別のビジュアルトークンであり、生成のための細粒度の詳細をエンコードし、理解のための高レベルなセマンティクスをキャプチャする。
本手法は,ドメイン固有の連続トークン化器に適合する,あるいは超過する,統一された離散トークン化器の上限を著しく高める。
- 参考スコア(独自算出の注目度): 69.09699034036124
- License:
- Abstract: The representation disparity between visual generation and understanding imposes a critical gap in integrating these capabilities into a single framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer that encodes fine-grained details for generation while also capturing high-level semantics for understanding. Despite recent studies have shown that these objectives could induce loss conflicts in training, we reveal that the underlying bottleneck stems from limited representational capacity of discrete tokens. We address this by introducing multi-codebook quantization, which divides vector quantization with several independent sub-codebooks to expand the latent feature space, while avoiding training instability caused by overlarge codebooks. Our method significantly raises the upper limit of unified discrete tokenizers to match or even surpass domain-specific continuous tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus 0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.
- Abstract(参考訳): 視覚生成と理解の相違は、これらの機能を単一のフレームワークに統合する上で、重大なギャップを課している。
このギャップを埋めるために、我々はUniTokを紹介します。UniTokは、個別のビジュアルトークンであり、生成のための細粒度の詳細をエンコードし、理解のための高レベルのセマンティクスをキャプチャします。
近年の研究では、これらの目的がトレーニング中に損失の衝突を引き起こすことが示されているが、根底にあるボトルネックは、離散トークンの表現能力の制限によるものであることが明らかになった。
ベクトル量子化を複数の独立したサブコードブックに分割して潜在特徴空間を拡大し,過大なコードブックによるトレーニング不安定を回避できるマルチコードブック量子化を導入することで,この問題に対処する。
本手法は,ドメイン固有の連続トークン化器に適合する,あるいは超過する,統一された離散トークン化器の上限を著しく高める。
例えば、UniTok は ImageNet で 0.38 (SD-VAEは 0.87) の驚くべき rFID と 78.6% (CLIPは 76.2%) のゼロショット精度を実現している。
私たちのコードはhttps://github.com/FoundationVision/UniTok.comで利用可能です。
関連論文リスト
- GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - SweetTokenizer: Semantic-Aware Spatial-Temporal Tokenizer for Compact Visual Discretization [20.109136454526233]
SweetTokenizer (SweetTokenizer) は、視覚データに対するコンパクトで効果的な離散化手法である。
我々の目標は、VQ-VAEパラダイムの再現性を維持しつつ、トークンの圧縮比を高めることである。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - Taming Scalable Visual Tokenizer for Autoregressive Image Generation [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。