論文の概要: NativeTok: Native Visual Tokenization for Improved Image Generation
- arxiv url: http://arxiv.org/abs/2601.22837v1
- Date: Fri, 30 Jan 2026 11:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.400053
- Title: NativeTok: Native Visual Tokenization for Improved Image Generation
- Title(参考訳): NativeTok: 改善された画像生成のためのネイティブビジュアルトークン化
- Authors: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao,
- Abstract要約: VQベースの画像生成は通常、2段階のパイプラインに従う: トークン化器は画像を個別のトークンにエンコードし、生成モデルはそれらの依存関係を再構築するために学習する。
このミスマッチは生成モデルを非順序分布から学習させ、バイアスと弱コヒーレンスをもたらす。
トークン化中に因果依存性を強制するネイティブな視覚トークン化を提案する。
- 参考スコア(独自算出の注目度): 32.71869240780425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.
- Abstract(参考訳): VQベースの画像生成は通常、2段階のパイプラインに従う: トークン化器は画像を個別のトークンにエンコードし、生成モデルはそれらの依存関係を再構築するために学習する。
しかしながら、第1段階でのトークン化の改善は、既存のメソッドがトークン依存性の制約に失敗するため、必ずしも第2ステージの生成を向上するとは限らない。
このミスマッチは生成モデルを非順序分布から学習させ、バイアスと弱コヒーレンスをもたらす。
そこで本研究では,トークン化時に因果依存性を強制するネイティブな視覚トークン化を提案する。
このアイデアに基づいて、トークンシーケンスにリレーショナル制約を埋め込んで効率的な再構築を実現するフレームワークであるNativeTokを紹介した。
NativeTokは,(1)潜時画像モデリングのためのメタ画像変換器(MIT)と(2)因果エキスパート変換器(MoCET)から構成される。
さらに、新たな専門家ブロックのみを更新し、トレーニング効率を確保する階層的ネイティブトレーニング戦略を設計しています。
大規模な実験はNativeTokの有効性を実証している。
関連論文リスト
- ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。
我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。
我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文 参考訳(メタデータ) (2025-10-14T07:34:44Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。