論文の概要: AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
- arxiv url: http://arxiv.org/abs/2506.05289v1
- Date: Thu, 05 Jun 2025 17:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.863719
- Title: AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
- Title(参考訳): AliTok: tokenizer と Autoregressive Model のシーケンスモデリングアライメントを目指して
- Authors: Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, Jian Yang, Yansong Peng, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。
ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。
パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
- 参考スコア(独自算出の注目度): 59.065471969232284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive image generation aims to predict the next token based on previous ones. However, existing image tokenizers encode tokens with bidirectional dependencies during the compression process, which hinders the effective modeling by autoregressive models. In this paper, we propose a novel Aligned Tokenizer (AliTok), which utilizes a causal decoder to establish unidirectional dependencies among encoded tokens, thereby aligning the token modeling approach between the tokenizer and autoregressive model. Furthermore, by incorporating prefix tokens and employing two-stage tokenizer training to enhance reconstruction consistency, AliTok achieves great reconstruction performance while being generation-friendly. On ImageNet-256 benchmark, using a standard decoder-only autoregressive model as the generator with only 177M parameters, AliTok achieves a gFID score of 1.50 and an IS of 305.9. When the parameter count is increased to 662M, AliTok achieves a gFID score of 1.35, surpassing the state-of-the-art diffusion method with 10x faster sampling speed. The code and weights are available at https://github.com/ali-vilab/alitok.
- Abstract(参考訳): 自動回帰画像生成は、前のトークンに基づいて次のトークンを予測することを目的としている。
しかし、既存の画像トークン化器は、圧縮プロセス中に双方向の依存関係を持つトークンを符号化し、自動回帰モデルによる効果的なモデリングを妨げる。
本稿では,トークン間の一方向依存性を確立するために因果デコーダを利用する新しいアラインドトークン化器(AliTok)を提案し,トークン化器と自己回帰モデルの間でトークンモデリングアプローチを整合させる。
さらに、プレフィックストークンを組み込んで2段階のトークンライザトレーニングを用いて再構成一貫性を向上させることにより、AliTokは世代フレンドリな状態で、大幅な再構築性能を実現する。
ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルを177Mパラメータのジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。
パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
コードとウェイトはhttps://github.com/ali-vilab/alitok.comで公開されている。
関連論文リスト
- BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale [101.57871281101747]
NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端のパフォーマンスを実現する。
本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。
論文 参考訳(メタデータ) (2025-08-14T14:54:22Z) - HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文 参考訳(メタデータ) (2025-06-04T20:08:07Z) - D-AR: Diffusion via Autoregressive Models [21.03363985989625]
Diffusion via Autoregressive Model (D-AR) は、画像拡散プロセスをバニラ自己回帰法として再キャストする新しいパラダイムである。
本手法は,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09個のFIDを実現する。
論文 参考訳(メタデータ) (2025-05-29T17:09:25Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。
本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文 参考訳(メタデータ) (2025-03-20T14:41:29Z) - Autoregressive Image Generation with Randomized Parallel Decoding [23.714192351237628]
ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文 参考訳(メタデータ) (2025-03-12T05:52:27Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。