論文の概要: Layton: Latent Consistency Tokenizer for 1024-pixel Image Reconstruction and Generation by 256 Tokens
- arxiv url: http://arxiv.org/abs/2503.08377v3
- Date: Fri, 14 Mar 2025 03:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:48.008556
- Title: Layton: Latent Consistency Tokenizer for 1024-pixel Image Reconstruction and Generation by 256 Tokens
- Title(参考訳): Layton: 256トークンによる1024ピクセル画像再構成と生成のための遅延整合型トケナイザ
- Authors: Qingsong Xie, Zhao Zhang, Zhe Huang, Yanhao Zhang, Haonan Lu, Zhenyu Yang,
- Abstract要約: Layton(Latent Consistency Tokenizer)は、事前学習された潜在拡散モデル(LDM)のコンパクト潜在空間で離散的視覚トークンをブリッジする
MSCOCO-2017の1024x1024画像再構成のためのFrechet Inception DistanceをMSCOCO-2017 5Kベンチマークで10.8再構成した。
私たちはLaytonをテキストから画像生成モデルであるLaytonGenに拡張し、自動回帰で作業します。
- 参考スコア(独自算出の注目度): 16.88806281310958
- License:
- Abstract: Image tokenization has significantly advanced visual generation and multimodal modeling, particularly when paired with autoregressive models. However, current methods face challenges in balancing efficiency and fidelity: high-resolution image reconstruction either requires an excessive number of tokens or compromises critical details through token reduction. To resolve this, we propose Latent Consistency Tokenizer (Layton) that bridges discrete visual tokens with the compact latent space of pre-trained Latent Diffusion Models (LDMs), enabling efficient representation of 1024x1024 images using only 256 tokens-a 16 times compression over VQGAN. Layton integrates a transformer encoder, a quantized codebook, and a latent consistency decoder. Direct application of LDM as the decoder results in color and brightness discrepancies. Thus, we convert it to latent consistency decoder, reducing multi-step sampling to 1-2 steps for direct pixel-level supervision. Experiments demonstrate Layton's superiority in high-fidelity reconstruction, with 10.8 reconstruction Frechet Inception Distance on MSCOCO-2017 5K benchmark for 1024x1024 image reconstruction. We also extend Layton to a text-to-image generation model, LaytonGen, working in autoregression. It achieves 0.73 score on GenEval benchmark, surpassing current state-of-the-art methods. Project homepage: https://github.com/OPPO-Mente-Lab/Layton
- Abstract(参考訳): 画像トークン化は、特に自己回帰モデルと組み合わせた場合、視覚生成とマルチモーダルモデリングを著しく進歩させた。
しかし、現在の手法は効率性と忠実性のバランスをとる上で困難に直面している。高解像度の画像再構成には過剰なトークン数が必要か、トークンの削減による重要な詳細を妥協する必要がある。
そこで本研究では,離散的視覚トークンをLDM(Latent Diffusion Models)のコンパクトな潜在空間にブリッジし,256個のトークンのみを用いて1024x1024画像の効率的な表現を可能にするLatent Consistency Tokenizer(Layton)を提案する。
Laytonはトランスフォーマーエンコーダ、量子化されたコードブック、遅延一貫性デコーダを統合している。
復号器としてのLCMの直接適用は、色と明るさの相違をもたらす。
そこで我々はこれを遅延整合復号器に変換し,複数ステップのサンプリングを1-2ステップに減らし,画素レベルの直接監視を行う。
MSCOCO-2017の1024x1024画像再構成のためのFrechet Inception DistanceをMSCOCO-2017 5Kベンチマークで10.8再構成した。
また、Laytonをテキストから画像生成モデルであるLaytonGenに拡張し、自動回帰に取り組んでいます。
GenEvalベンチマークで0.73のスコアを獲得し、現在の最先端メソッドを上回っている。
プロジェクトホームページ:https://github.com/OPPO-Mente-Lab/Layton
関連論文リスト
- FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。
提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。
HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:42Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。