論文の概要: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
- arxiv url: http://arxiv.org/abs/2506.05289v2
- Date: Fri, 10 Oct 2025 16:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.600131
- Title: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
- Title(参考訳): tokenizer と Autoregressive Model のシーケンスモデリングアライメントに向けて
- Authors: Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, Jian Yang, Yansong Peng, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: AliTokはトークンシーケンスの依存性構造を変更する新しいアラインド・トークンライザである。
AliTokは177Mパラメータしか持たない標準的なデコーダのみの自己回帰モデルで、ImageNet-256ベンチマークで1.44のgFIDと319.5のISを達成している。
- 参考スコア(独自算出の注目度): 69.79418000132995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive image generation aims to predict the next token based on previous ones. However, this process is challenged by the bidirectional dependencies inherent in conventional image tokenizations, which creates a fundamental misalignment with the unidirectional nature of autoregressive models. To resolve this, we introduce AliTok, a novel Aligned Tokenizer that alters the dependency structure of the token sequence. AliTok employs a bidirectional encoder constrained by a causal decoder, a design that compels the encoder to produce a token sequence with both semantic richness and forward-dependency. Furthermore, by incorporating prefix tokens and employing a two-stage tokenizer training process to enhance reconstruction performance, AliTok achieves high fidelity and predictability simultaneously. Building upon AliTok, a standard decoder-only autoregressive model with just 177M parameters achieves a gFID of 1.44 and an IS of 319.5 on the ImageNet-256 benchmark. Scaling up to 662M parameters, our model reaches a gFID of 1.28, surpassing the state-of-the-art diffusion method while achieving a 10x faster sampling speed. The code and weights are available at https://github.com/ali-vilab/alitok.
- Abstract(参考訳): 自動回帰画像生成は、前のトークンに基づいて次のトークンを予測することを目的としている。
しかし、このプロセスは、従来の画像トークン化に固有の双方向依存により、自己回帰モデルの一方向の性質と根本的な相違が生じている。
これを解決するために、トークンシーケンスの依存性構造を変更する新しいアラインド・トケナイザであるAliTokを紹介する。
AliTokでは、因果デコーダによって制約された双方向エンコーダを採用している。これは、エンコーダを補完して、セマンティックリッチネスとフォワード依存性の両方でトークンシーケンスを生成する設計である。
さらに,プレフィックストークンを組み込んで2段階のトークンライザトレーニングプロセスを用いて再建性能を向上させることにより,AliTokは高い忠実度と予測可能性を実現する。
AliTokは177Mパラメータしか持たない標準的なデコーダのみの自己回帰モデルで、ImageNet-256ベンチマークで1.44のgFIDと319.5のISを達成している。
最大662Mのパラメータをスケールすると、我々のモデルは1.28gFIDに達し、最先端の拡散法を上回り、サンプリング速度は10倍に向上する。
コードとウェイトはhttps://github.com/ali-vilab/alitok.comで公開されている。
関連論文リスト
- HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文 参考訳(メタデータ) (2025-06-04T20:08:07Z) - D-AR: Diffusion via Autoregressive Models [21.03363985989625]
Diffusion via Autoregressive Model (D-AR) は、画像拡散プロセスをバニラ自己回帰法として再キャストする新しいパラダイムである。
本手法は,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09個のFIDを実現する。
論文 参考訳(メタデータ) (2025-05-29T17:09:25Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。
本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文 参考訳(メタデータ) (2025-03-20T14:41:29Z) - Autoregressive Image Generation with Randomized Parallel Decoding [23.714192351237628]
ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文 参考訳(メタデータ) (2025-03-12T05:52:27Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。