論文の概要: Semantic-Aware Prefix Learning for Token-Efficient Image Generation
- arxiv url: http://arxiv.org/abs/2603.25249v1
- Date: Thu, 26 Mar 2026 09:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.224339
- Title: Semantic-Aware Prefix Learning for Token-Efficient Image Generation
- Title(参考訳): トークン効率の良い画像生成のためのセマンティック・アウェア・プレフィックス学習
- Authors: Qingfeng Li, Haoxian Zhang, Xu He, Songlin Tang, Zhixue Fang, Xiaoqiang Liu, Pengfei Wan Guoqi Li,
- Abstract要約: 本稿では,クエリベースの1Dトークン化フレームワークにクラスレベルの意味条件を注入するSemantic-Aware Prefixトークン化手法を提案する。
トレーニング中にセマンティクスを必須にするために、SMAPは、セマンティクス条件と早期潜伏プレフィックスが責任を負うように強制するテールトークンドロップ戦略を導入する。
ImageNetの実験では、SMAPは離散的および連続的なトークン化設定における再構成品質を一貫して改善している。
- 参考スコア(独自算出の注目度): 15.50406566147261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual tokenizers play a central role in latent image generation by bridging high-dimensional images and tractable generative modeling. However, most existing tokenizers are still trained with reconstruction-dominated objectives, which often yield latent representations that are only weakly grounded in high-level semantics. Recent approaches improve semantic alignment, but typically treat semantic signals as auxiliary regularization rather than making them functionally necessary for representation learning. We propose SMAP, a SeMantic-Aware Prefix tokenizer that injects class-level semantic conditions into a query-based 1D tokenization framework. To make semantics indispensable during training, SMAP introduces a tail token dropping strategy, which forces semantic conditions and early latent prefixes to bear increasing responsibility under progressively reduced token budgets. To verify that the resulting latent space is useful for generation rather than reconstruction alone, we further introduce CARD, a hybrid Causal AutoRegressive--Diffusion generator. Extensive experiments on ImageNet show that SMAP consistently improves reconstruction quality across discrete and continuous tokenization settings, and that its semantically grounded latent space yields strong downstream generation performance under compact token budgets.
- Abstract(参考訳): 視覚トークン化装置は、高次元画像をブリッジし、抽出可能な生成モデルにより遅延画像生成において中心的な役割を果たす。
しかし、ほとんどの既存のトークンーザは、高レベルのセマンティクスにおいて弱基底しか持たない潜伏表現をしばしば生み出す、再構成に支配された目的で訓練されている。
近年の手法は意味的アライメントを改善するが、通常、意味的信号は表現学習に機能的に必要となるのではなく、補助的な正規化として扱う。
問合せベースの1Dトークン化フレームワークにクラスレベルの意味条件を注入するSemantic-Aware Prefixトークン化ツールであるSMAPを提案する。
トレーニング中に意味論を不可欠にするために、SMAPは、段階的に削減されたトークン予算の下で、意味的条件と初期潜在プレフィックスに責任を負わせるように強制するテールトークンドロップ戦略を導入する。
得られた潜伏空間が再構成単独ではなく生成に有用であることを示すため,ハイブリッドな因果自己回帰拡散生成器であるCARDを導入する。
ImageNet上での大規模な実験により、SMAPは離散的かつ連続的なトークン化設定における再構成品質を一貫して改善し、その意味論的に基底付けられた潜在空間は、コンパクトなトークン予算の下で、強力な下流生成性能をもたらすことが示された。
関連論文リスト
- Self-Corrected Image Generation with Explainable Latent Rewards [55.29175717238288]
我々は、説明可能なLatent RewarDを通じて生成をガイドする自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
実験により、xLARDは、生成前の状態を維持しながら、意味的アライメントと視覚的忠実性を改善することが示された。
論文 参考訳(メタデータ) (2026-03-26T02:59:35Z) - Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation [11.568334063059638]
SemTokはセマンティックな1次元トークンライザで、2D画像を高レベルなセマンティクスで1次元の離散テキストトークンに圧縮する。
SemTokは、画像再構成の最先端を新たに設定し、非常にコンパクトなトークン表現で優れた忠実性を実現する。
SemTok上に構築したマスク付き自己回帰生成フレームワークは、下流画像生成タスクにおいて顕著な改善をもたらす。
論文 参考訳(メタデータ) (2026-03-17T11:01:08Z) - Learning Sparse Visual Representations via Spatial-Semantic Factorization [37.169502692169196]
自己教師付き学習(SSL)は、意味理解と画像再構成の根本的な対立に直面している。
本稿では,視覚的特徴を意味概念とその空間分布の低ランクな製品に分解するフレームワークSTELLARを紹介する。
この分解された形の下で16個のスパーストークンが同時に高品質な再構成(2.60 FID)をサポートし、高密度バックボーンのセマンティック性能(79.10% ImageNet精度)に適合することを示す。
論文 参考訳(メタデータ) (2026-02-02T10:12:17Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - RecTok: Reconstruction Distillation along Rectified Flow [85.51292475005151]
本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。
提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
論文 参考訳(メタデータ) (2025-12-15T15:14:20Z) - Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer [50.69959748410398]
我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
論文 参考訳(メタデータ) (2025-10-08T02:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。