論文の概要: Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2603.16373v1
- Date: Tue, 17 Mar 2026 11:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.234468
- Title: Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation
- Title(参考訳): 画像再構成・生成のためのセマンティック1次元トケナイザ
- Authors: Yunpeng Qu, Kaidong Zhang, Yukang Ding, Ying Chen, Jian Wang,
- Abstract要約: SemTokはセマンティックな1次元トークンライザで、2D画像を高レベルなセマンティクスで1次元の離散テキストトークンに圧縮する。
SemTokは、画像再構成の最先端を新たに設定し、非常にコンパクトなトークン表現で優れた忠実性を実現する。
SemTok上に構築したマスク付き自己回帰生成フレームワークは、下流画像生成タスクにおいて顕著な改善をもたらす。
- 参考スコア(独自算出の注目度): 11.568334063059638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual generative models based on latent space have achieved great success, underscoring the significance of visual tokenization. Mapping images to latents boosts efficiency and enables multimodal alignment for scaling up in downstream tasks. Existing visual tokenizers primarily map images into fixed 2D spatial grids and focus on pixel-level restoration, which hinders the capture of representations with compact global semantics. To address these issues, we propose \textbf{SemTok}, a semantic one-dimensional tokenizer that compresses 2D images into 1D discrete tokens with high-level semantics. SemTok sets a new state-of-the-art in image reconstruction, achieving superior fidelity with a remarkably compact token representation. This is achieved via a synergistic framework with three key innovations: a 2D-to-1D tokenization scheme, a semantic alignment constraint, and a two-stage generative training strategy. Building on SemTok, we construct a masked autoregressive generation framework, which yields notable improvements in downstream image generation tasks. Experiments confirm the effectiveness of our semantic 1D tokenization. Our code will be open-sourced.
- Abstract(参考訳): 潜在空間に基づく視覚生成モデルは大きな成功を収めており、視覚的トークン化の重要性を強調している。
イメージを遅延にマッピングすることで効率が向上し、下流タスクをスケールアップするためのマルチモーダルアライメントが可能になる。
既存のビジュアルトークンーザは、画像を固定された2次元空間グリッドにマッピングし、ピクセルレベルの復元に焦点を当て、コンパクトなグローバルセマンティクスによる表現の捕捉を妨げる。
これらの問題に対処するために,2次元画像を高レベルな意味を持つ1次元離散トークンに圧縮する意味的一次元トークン化器 \textbf{SemTok} を提案する。
SemTokは、画像再構成の最先端を新たに設定し、非常にコンパクトなトークン表現で優れた忠実性を実現する。
これは、2D-to-1Dトークン化スキーム、セマンティックアライメント制約、および2段階生成トレーニング戦略という3つの重要な革新を伴うシナジスティックフレームワークによって達成される。
SemTok上に構築したマスク付き自己回帰生成フレームワークは、下流画像生成タスクにおいて顕著な改善をもたらす。
セマンティック1Dトークン化の有効性を検証する実験を行った。
私たちのコードはオープンソースになります。
関連論文リスト
- ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - AToken: A Unified Tokenizer for Vision [26.55839382749872]
本稿では,高忠実度再構築と意味理解を両立する最初の統合視覚トークン化ツールであるATokenを紹介する。
プログレッシブトレーニングカリキュラムを採用することで、ATokenは、シングルイメージ、ビデオ、3Dから徐々に拡張され、連続トークンと離散トークンの両方をサポートする。
論文 参考訳(メタデータ) (2025-09-17T23:11:18Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。