論文の概要: Image Tokenizer Needs Post-Training
- arxiv url: http://arxiv.org/abs/2509.12474v1
- Date: Mon, 15 Sep 2025 21:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.778195
- Title: Image Tokenizer Needs Post-Training
- Title(参考訳): Image Tokenizerはポストトライニングを必要とする
- Authors: Kai Qiu, Xiang Li, Hao Chen, Jason Kuen, Xiaohao Xu, Jiuxiang Gu, Yinyi Luo, Bhiksha Raj, Zhe Lin, Marios Savvides,
- Abstract要約: 本稿では,遅延空間構築と復号化に着目した新しいトークン化学習手法を提案する。
具体的には,トークン化の堅牢性を大幅に向上させる,プラグアンドプレイ型トークン化学習手法を提案する。
生成したトークンと再構成されたトークンの分布差を軽減するために、よく訓練された生成モデルに関するトークン化デコーダをさらに最適化する。
- 参考スコア(独自算出の注目度): 76.91832192778732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image generative models typically capture the image distribution in a pre-constructed latent space, relying on a frozen image tokenizer. However, there exists a significant discrepancy between the reconstruction and generation distribution, where current tokenizers only prioritize the reconstruction task that happens before generative training without considering the generation errors during sampling. In this paper, we comprehensively analyze the reason for this discrepancy in a discrete latent space, and, from which, we propose a novel tokenizer training scheme including both main-training and post-training, focusing on improving latent space construction and decoding respectively. During the main training, a latent perturbation strategy is proposed to simulate sampling noises, \ie, the unexpected tokens generated in generative inference. Specifically, we propose a plug-and-play tokenizer training scheme, which significantly enhances the robustness of tokenizer, thus boosting the generation quality and convergence speed, and a novel tokenizer evaluation metric, \ie, pFID, which successfully correlates the tokenizer performance to generation quality. During post-training, we further optimize the tokenizer decoder regarding a well-trained generative model to mitigate the distribution difference between generated and reconstructed tokens. With a $\sim$400M generator, a discrete tokenizer trained with our proposed main training achieves a notable 1.60 gFID and further obtains 1.36 gFID with the additional post-training. Further experiments are conducted to broadly validate the effectiveness of our post-training strategy on off-the-shelf discrete and continuous tokenizers, coupled with autoregressive and diffusion-based generators.
- Abstract(参考訳): 最近の画像生成モデルは、通常、凍結された画像トークン化器に依存して、あらかじめ構築された潜在空間における画像分布をキャプチャする。
しかし, 現在のトークン化者は, サンプリング中の生成誤差を考慮せずに, 生成訓練前に発生する再構成タスクのみを優先する。
本稿では,この不一致の原因を離散潜在空間において包括的に分析し,そこから主学習と後学習の両方を含む新しいトークン化学習手法を提案し,それぞれ遅延空間の構築と復号化に焦点をあてる。
メイントレーニングでは, ノイズのサンプリングをシミュレートする潜伏摂動戦略が提案されている。
具体的には,トークン化の堅牢性を大幅に向上させ,生成品質と収束速度を向上するプラグアンドプレイトークン化学習手法と,トークン化性能を生成品質に相関させる新しいトークン化評価指標である \ie, pFID を提案する。
ポストトレーニング中に、よく訓練された生成モデルに関するトークン化デコーダをさらに最適化し、生成されたトークンと再構成されたトークンの分布差を軽減する。
400M の$\sim$400M ジェネレータを用いて,提案したメイントレーニングでトレーニングした離散トークンは,注目すべき 1.60 gFID を達成するとともに,追加のポストトレーニングで 1.36 gFID を得る。
さらに, 自己回帰型および拡散型ジェネレータと組み合わせて, 市販の離散型および連続型トークン化器に対するポストトレーニング戦略の有効性を広く検証する実験を行った。
関連論文リスト
- SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution [3.103291412074661]
本研究では,合成画像検出に固有の一般化問題に対処する新しい2段階検出フレームワークを提案する。
提案手法は,既存手法よりも5.2ポイント向上した平均検出精度91.3%を実現する。
論文 参考訳(メタデータ) (2025-11-20T16:53:24Z) - MixAR: Mixture Autoregressive Image Generation [12.846100277592969]
連続的自己回帰モデリングのための事前ガイダンスとして離散トークンを注入する新しいフレームワークであるMixARを紹介する。
本稿では、自己注意(DC-SA)、クロスアテンション(DC-CA)、均一なマスクトークンを情報的な個別のトークンに置き換える単純なアプローチ(DC-Mix)など、いくつかの離散連続混合戦略について検討する。
論文 参考訳(メタデータ) (2025-11-15T12:19:28Z) - BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation [110.28291466364784]
Speculative Jacobi-Denoising Decoding (SJD2) は、自動回帰モデルでパラレルトークン生成を可能にするために、デノナイズプロセスをJacobiに組み込むフレームワークである。
提案手法では,事前学習した自己回帰モデルに対して,ノイズ・摂動トークンの埋め込みを受理できる次クリーンな予測パラダイムを導入する。
論文 参考訳(メタデータ) (2025-10-10T04:30:45Z) - Joint Learning of Pose Regression and Denoising Diffusion with Score Scaling Sampling for Category-level 6D Pose Estimation [19.996312940214363]
カテゴリレベルの6次元オブジェクトのポーズ推定のための新しいパイプラインを提案する。
提案手法は, 直接ポーズ回帰ヘッドを用いてエンコーダを事前訓練し, 回帰ヘッドとデノナイジング拡散ヘッドを介してネットワークを共同学習する。
サンプリングガイダンスは、最終段階における高品質なポーズ生成を確保しつつ、初期復調段階における対称物体のマルチモーダル特性を維持する。
論文 参考訳(メタデータ) (2025-10-05T09:58:51Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。
投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明された
この研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。