Fugu-MT 論文翻訳(概要): AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

論文の概要: AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

arxiv url: http://arxiv.org/abs/2506.05289v1
Date: Thu, 05 Jun 2025 17:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.863719
Title: AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
Title（参考訳）: AliTok: tokenizer と Autoregressive Model のシーケンスモデリングアライメントを目指して
Authors: Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, Jian Yang, Yansong Peng, Wei Zhai, Yang Cao, Zheng-Jun Zha,
Abstract要約: トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
参考スコア（独自算出の注目度）: 59.065471969232284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive image generation aims to predict the next token based on previous ones. However, existing image tokenizers encode tokens with bidirectional dependencies during the compression process, which hinders the effective modeling by autoregressive models. In this paper, we propose a novel Aligned Tokenizer (AliTok), which utilizes a causal decoder to establish unidirectional dependencies among encoded tokens, thereby aligning the token modeling approach between the tokenizer and autoregressive model. Furthermore, by incorporating prefix tokens and employing two-stage tokenizer training to enhance reconstruction consistency, AliTok achieves great reconstruction performance while being generation-friendly. On ImageNet-256 benchmark, using a standard decoder-only autoregressive model as the generator with only 177M parameters, AliTok achieves a gFID score of 1.50 and an IS of 305.9. When the parameter count is increased to 662M, AliTok achieves a gFID score of 1.35, surpassing the state-of-the-art diffusion method with 10x faster sampling speed. The code and weights are available at https://github.com/ali-vilab/alitok.
Abstract（参考訳）: 自動回帰画像生成は、前のトークンに基づいて次のトークンを予測することを目的としている。しかし、既存の画像トークン化器は、圧縮プロセス中に双方向の依存関係を持つトークンを符号化し、自動回帰モデルによる効果的なモデリングを妨げる。本稿では,トークン間の一方向依存性を確立するために因果デコーダを利用する新しいアラインドトークン化器(AliTok)を提案し,トークン化器と自己回帰モデルの間でトークンモデリングアプローチを整合させる。さらに、プレフィックストークンを組み込んで2段階のトークンライザトレーニングを用いて再構成一貫性を向上させることにより、AliTokは世代フレンドリな状態で、大幅な再構築性能を実現する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルを177Mパラメータのジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。コードとウェイトはhttps://github.com/ali-vilab/alitok.comで公開されている。

関連論文リスト

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。 HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文参考訳（メタデータ） (2025-06-04T20:08:07Z)
D-AR: Diffusion via Autoregressive Models [21.03363985989625]
Diffusion via Autoregressive Model (D-AR) は、画像拡散プロセスをバニラ自己回帰法として再キャストする新しいパラダイムである。本手法は,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09個のFIDを実現する。
論文参考訳（メタデータ） (2025-05-29T17:09:25Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文参考訳（メタデータ） (2025-03-20T14:41:29Z)
Autoregressive Image Generation with Randomized Parallel Decoding [23.714192351237628]
ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文参考訳（メタデータ） (2025-03-13T17:19:51Z)
Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。 ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文参考訳（メタデータ） (2025-03-12T05:52:27Z)
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文参考訳（メタデータ） (2025-03-11T12:09:11Z)
MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文参考訳（メタデータ） (2024-09-24T16:12:12Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。