論文の概要: DINO-Tok: Adapting DINO for Visual Tokenizers
- arxiv url: http://arxiv.org/abs/2511.20565v1
- Date: Tue, 25 Nov 2025 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.596881
- Title: DINO-Tok: Adapting DINO for Visual Tokenizers
- Title(参考訳): DINO-Tok: Visual TokenizersにDINOを適応させる
- Authors: Mingkai Jia, Mingxiao Li, Liaoyuan Fan, Tianxing Shi, Jiaxin Guo, Zeming Li, Xiaoyang Guo, Xiao-Xiao Long, Qian Zhang, Ping Tan, Wei Yin,
- Abstract要約: DINO-Tokは、階層的表現を情報完全潜在空間に統一する視覚トークンである。
ImageNetでは、DINO-Tokは最先端の再構築性能を達成し、自動エンコーディングでは28.54 PSNR、VQベースのモデリングでは23.98 PSNRに達した。
- 参考スコア(独自算出の注目度): 52.194754463297706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual generation have highlighted the rise of Latent Generative Models (LGMs), which rely on effective visual tokenizers to bridge pixels and semantics. However, existing tokenizers are typically trained from scratch and struggle to balance semantic representation and reconstruction fidelity, particularly in high-dimensional latent spaces. In this work, we introduce DINO-Tok, a DINO-based visual tokenizer that unifies hierarchical representations into an information-complete latent space. By integrating shallow features that retain fine-grained details with deep features encoding global semantics, DINO-Tok effectively bridges pretrained representations and visual generation. We further analyze the challenges of vector quantization (VQ) in this high-dimensional space, where key information is often lost and codebook collapse occurs. We thus propose a global PCA reweighting mechanism to stabilize VQ and preserve essential information across dimensions. On ImageNet 256$\times$256, DINO-Tok achieves state-of-the-art reconstruction performance, reaching 28.54 PSNR for autoencoding and 23.98 PSNR for VQ-based modeling, significantly outperforming prior tokenizers and comparable to billion-level data trained models (such as Hunyuan and Wan). These results demonstrate that adapting powerful pretrained vision models like DINO for tokenization enables semantically aligned and high-fidelity latent representations, enabling next-generation visual generative models. Code will be publicly available at https://github.com/MKJia/DINO-Tok.
- Abstract(参考訳): 視覚生成の最近の進歩は、ピクセルとセマンティクスをブリッジする効果的な視覚トークン化器に依存する潜在生成モデル(LGM)の台頭を浮き彫りにした。
しかし、既存のトークン化器は、特に高次元の潜在空間において、スクラッチから訓練され、意味表現と再構成の忠実さのバランスをとるのに苦労する。
本稿では,情報完全潜在空間に階層的表現を統一するDINO-Tokについて紹介する。
DINO-Tokは、細かな細部をグローバルセマンティクスをエンコードする深い機能と統合することにより、事前訓練された表現と視覚生成を効果的に橋渡しする。
さらに、この高次元空間におけるベクトル量子化(VQ)の課題について分析する。
そこで本稿では,VQを安定化し,各次元にまたがる重要な情報を保存するためのグローバルPCAリウェイト機構を提案する。
ImageNet 256$\times$256では、DINO-Tokは最先端の再構築性能を達成し、自動エンコーディングでは28.54 PSNR、VQベースのモデリングでは23.98 PSNRに達し、プリエンタライザよりも大幅に優れ、数十億レベルのデータトレーニングモデル(HunyuanやWanなど)に匹敵する。
これらの結果は、DINOのような強力な事前学習された視覚モデルをトークン化に適用することで、意味的に整合し、高忠実な潜在表現を可能にし、次世代の視覚生成モデルを可能にすることを示す。
コードはhttps://github.com/MKJia/DINO-Tok.comで公開される。
関連論文リスト
- Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。