論文の概要: SFTok: Bridging the Performance Gap in Discrete Tokenizers
- arxiv url: http://arxiv.org/abs/2512.16910v1
- Date: Thu, 18 Dec 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.250207
- Title: SFTok: Bridging the Performance Gap in Discrete Tokenizers
- Title(参考訳): SFTok: 離散トケナイザのパフォーマンスギャップを埋める
- Authors: Qihang Rao, Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu,
- Abstract要約: 複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
- 参考スコア(独自算出の注目度): 72.9996757048065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal models highlight the pivotal role of image tokenization in high-resolution image generation. By compressing images into compact latent representations, tokenizers enable generative models to operate in lower-dimensional spaces, thereby improving computational efficiency and reducing complexity. Discrete tokenizers naturally align with the autoregressive paradigm but still lag behind continuous ones, limiting their adoption in multimodal systems. To address this, we propose \textbf{SFTok}, a discrete tokenizer that incorporates a multi-step iterative mechanism for precise reconstruction. By integrating \textbf{self-forcing guided visual reconstruction} and \textbf{debias-and-fitting training strategy}, SFTok resolves the training-inference inconsistency in multi-step process, significantly enhancing image reconstruction quality. At a high compression rate of only 64 tokens per image, SFTok achieves state-of-the-art reconstruction quality on ImageNet (rFID = 1.21) and demonstrates exceptional performance in class-to-image generation tasks (gFID = 2.29).
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、高解像度画像生成における画像トークン化の重要な役割を浮き彫りにしている。
画像をコンパクトな潜在表現に圧縮することにより、トークンーザは生成モデルを低次元空間で動作させ、計算効率を向上し複雑さを低減できる。
離散トークン化器は自然に自己回帰的パラダイムと一致するが、それでも連続的パラダイムに遅れず、マルチモーダルシステムでの採用を制限する。
これを解決するために,複数ステップ反復機構を組み込んだ離散トークン化器である \textbf{SFTok} を提案する。
SFTokは, マルチステッププロセスにおけるトレーニング推論の不整合を解消し, 画像再構成の品質を大幅に向上させる。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNet(rFID = 1.21)の最先端の復元品質を達成し、クラス・ツー・イメージ生成タスク(gFID = 2.29)において例外的なパフォーマンスを示す。
関連論文リスト
- Learning to Expand Images for Efficient Visual Autoregressive Modeling [26.400433163290586]
本稿では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムである、拡張自己回帰表現(EAR)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
論文 参考訳(メタデータ) (2025-11-19T14:55:07Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。