論文の概要: InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2605.14333v1
- Date: Thu, 14 May 2026 03:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.610862
- Title: InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation
- Title(参考訳): InsightTok:自己回帰画像生成のための離散的トークン化におけるテキストと顔の忠実度の改善
- Authors: Yang Yue, Fangyun Wei, Tianyu He, Jinjing Zhao, Zanlin Ni, Zeyu Liu, Jiayi Guo, Lei Shi, Yue Dong, Li Chen, Ji Li, Gao Huang, Dong Chen,
- Abstract要約: InsightTokは、個別の視覚的トークン化フレームワークで、ローカライズされたコンテンツ対応の知覚的損失を通じて、テキストと顔の忠実度を高める。
コンパクトな16kコードブックと16倍のダウンサンプリングレートで、InsightTokはテキストや顔の再構成において、以前のトークンよりも大幅にパフォーマンスが向上した。
その結果、離散画像生成を進めるためのトークン化教育における特殊監督の可能性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 67.8525902443746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text and faces are among the most perceptually salient and practically important patterns in visual generation, yet they remain challenging for autoregressive generators built on discrete tokenization. A central bottleneck is the tokenizer: aggressive downsampling and quantization often discard the fine-grained structures needed to preserve readable glyphs and distinctive facial features. We attribute this gap to standard discrete-tokenizer objectives being weakly aligned with text legibility and facial fidelity, as these objectives typically optimize generic reconstruction while compressing diverse content uniformly. To address this, we propose InsightTok, a simple yet effective discrete visual tokenization framework that enhances text and face fidelity through localized, content-aware perceptual losses. With a compact 16k codebook and a 16x downsampling rate, InsightTok significantly outperforms prior tokenizers in text and face reconstruction without compromising general reconstruction quality. These gains consistently transfer to autoregressive image generation in InsightAR, producing images with clearer text and more faithful facial details. Overall, our results highlight the potential of specialized supervision in tokenizer training for advancing discrete image generation.
- Abstract(参考訳): テキストと顔は視覚生成において最も知覚的に健全で事実上重要なパターンの1つであるが、離散トークン化に基づいて構築された自己回帰型ジェネレータは依然として困難である。
攻撃的なダウンサンプリングと量子化は、しばしば読みやすいグリフと独特の顔の特徴を保持するのに必要な微細な構造を捨てる。
このギャップは、テキストの正当性や顔の忠実度に弱く、汎用的な再構成を最適化し、多様なコンテンツを一様に圧縮する、という標準的な離散トークン化の目的に起因している。
これを解決するためにInsightTokを提案する。これはテキストと顔の忠実度を高めるためのシンプルで効果的な離散的な視覚的トークン化フレームワークである。
コンパクトな16kコードブックと16倍のダウンサンプリングレートで、InsightTokは、一般的な再構築品質を損なうことなく、テキストや顔の再構築において、先行トークンよりも大幅に性能が向上する。
これらのゲインはInsightARの自己回帰画像生成に一貫して移行し、より明瞭なテキストとより忠実な顔の詳細の画像を生成する。
以上の結果から,離散画像生成を推し進めるためのトークン化教育における専門監督の可能性を強調した。
関連論文リスト
- SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Missing Fine Details in Images: Last Seen in High Frequencies [17.95197409468585]
本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器の忠実度ギャップを橋渡しし,実写画像合成における周波数認識最適化の重要性を強調する。
論文 参考訳(メタデータ) (2025-09-05T18:49:08Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。