論文の概要: CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
- arxiv url: http://arxiv.org/abs/2603.06449v1
- Date: Fri, 06 Mar 2026 16:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.209881
- Title: CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
- Title(参考訳): CaTok: 一次元因果画像トークン化のための平均フローのモデリング
- Authors: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang,
- Abstract要約: 本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
- 参考スコア(独自算出の注目度): 122.88484422855934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.
- Abstract(参考訳): 自己回帰(AR)言語モデルは因果トークン化に依存しているが、このパラダイムをビジョンに拡張することは簡単ではない。
現在のビジュアル・トークンーザは2Dパッチを非因果配列に平らにするか、あるいは「次世代の予測」パターンと誤認するヒューリスティックな順序を強制するかのどちらかである。
最近の拡散オートエンコーダも同様に短くなる:全てのトークンにデコーダを条件付けすることは因果性に欠けるが、ネストされたドロップアウト機構の適用は不均衡をもたらす。
これらの課題に対処するために、MeanFlowデコーダを備えた1D因果画像トークンであるCaTokを紹介する。
図1に示すように、トークンを時間間隔で選択し、MeanFlowの目的に結び付けることで、CaTokは、高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学び、トークン間隔をまたいだ多様な視覚概念を自然にキャプチャする。
トレーニングのさらなる安定化と高速化を目的として,エンコーダの機能をVFM(Vision Foundation Models)に整合させる,簡単な正規化REPA-Aを提案する。
実験では、CaTokがImageNet再構築の最先端の結果を達成し、トレーニングエポックの少ない0.75 FID、22.53 PSNR、0.674 SSIMに達した。
関連論文リスト
- ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [69.79418000132995]
AliTokはトークンシーケンスの依存性構造を変更する新しいアラインド・トークンライザである。
AliTokは177Mパラメータしか持たない標準的なデコーダのみの自己回帰モデルで、ImageNet-256ベンチマークで1.44のgFIDと319.5のISを達成している。
論文 参考訳(メタデータ) (2025-06-05T17:45:10Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。