論文の概要: Towards Scalable Pre-training of Visual Tokenizers for Generation
- arxiv url: http://arxiv.org/abs/2512.13687v1
- Date: Mon, 15 Dec 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.832907
- Title: Towards Scalable Pre-training of Visual Tokenizers for Generation
- Title(参考訳): 生成のためのビジュアルトケナイザのスケーラブル事前学習に向けて
- Authors: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang,
- Abstract要約: 本稿では、画像テキストのコントラスト、自己監督、再構成の損失を共同で最適化する一貫した視覚トークン化前訓練フレームワークを提案する。
大規模プレトレーニング後, トークン化装置は, 画像ネット上で78.2ゼロショット精度と0.36rFID) と4.1倍のコンバージェンスを実現した。
- 参考スコア(独自算出の注目度): 41.785568766118594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
- Abstract(参考訳): 視覚トークン化器(例えば、VAEs)における潜伏空間の品質は、現代の生成モデルにとって不可欠である。
しかし、標準的な再構成に基づくトレーニングパラダイムは、低レベルの情報に偏った潜在空間を生成し、基礎的な欠陥を生んでいる。
これは、ビジュアルトークンライザの事前トレーニングに広範な計算を注ぐと、生成のパフォーマンスが向上することを意味している。
我々は、これを `pre-training scaling problem` とみなし、生成に有効であるためには、高いレベルの意味論を簡潔に表現しなければならない、という、必要なシフトを提案する。
本稿では、画像テキストのコントラスト、自己監督、再構成損失の協調最適化の先駆けとなる、統合視覚トークン化事前学習フレームワークであるVTPを提案する。
大規模研究では,(1) 理解は生成の鍵となる要因であり,(2) より優れたスケーリング特性であり,(2) 生成性能は,視覚トークンの事前学習に割り当てられた計算,パラメータ,データとともに効果的にスケールする。
大規模プレトレーニング後, トークン化装置は, 画像ネット上で78.2ゼロショット精度と0.36rFID) と4.1倍のコンバージェンスを実現した。
さらに重要なことは、標準のDiTトレーニング仕様を変更することなく、VTPの事前訓練により多くのFLOPSを投資するだけで、ダウンストリーム生成において65.8%のFID改善が達成され、従来のオートエンコーダは1/10 FLOPSで非常に早い段階で停滞する。
トレーニング済みのモデルについては、https://github.com/MiniMax-AI/VTP.comで公開しています。
関連論文リスト
- Analysis of Hyperparameter Optimization Effects on Lightweight Deep Models for Real-Time Image Classification [0.0]
本研究では,ConvNeXt-T,EfficientV2-S,MobileNetV3-L,MobileViT v2(S/XS),RepVGG-A2,TinyViT-21Mの7つの軽量アーキテクチャの精度と展開可能性を評価する。
チューニングだけでは、ベースラインを1.5から3.5パーセント上回るトップ1の精度向上につながり、選択されたモデルでは、レイテンシが5ミリ秒未満で、毎秒9800フレームを超える。
論文 参考訳(メタデータ) (2025-07-31T07:47:30Z) - Generative Pre-training for Subjective Tasks: A Diffusion Transformer-Based Framework for Facial Beauty Prediction [0.0]
顔の美容予測(FBP)は、その主観的性質と、人間の知覚に影響を与える微妙で全体的な特徴のために難しいコンピュータビジョン課題である。
本稿では、生成モデルのパワーを活用して、優れたドメイン特化特徴抽出器を作成する新しい2段階フレームワークを提案する。
我々の手法はDiff-FBPと呼ばれ、FBP5500ベンチマークで新しい最先端技術を設定し、パーソン相関係数(PCC)0.932を達成し、汎用事前学習に基づく先行技術よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-27T17:33:51Z) - RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。
非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。
RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-18T07:17:09Z) - Pre-Pruning and Gradient-Dropping Improve Differentially Private Image
Classification [9.120531252536617]
本稿では,テキストプリプルーニングとテキストグラディエントドロップを用いた新しいトレーニングパラダイムを導入し,パラメータ空間の削減と拡張性の向上を図る。
トレーニングパラダイムでは,プレプニング率と勾配ドロップ率,プライバシ損失,分類精度の間に緊張関係が生じる。
論文 参考訳(メタデータ) (2023-06-19T14:35:28Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。