Fugu-MT 論文翻訳(概要): Layton: Latent Consistency Tokenizer for 1024-pixel Image Reconstruction and Generation by 256 Tokens

論文の概要: Layton: Latent Consistency Tokenizer for 1024-pixel Image Reconstruction and Generation by 256 Tokens

arxiv url: http://arxiv.org/abs/2503.08377v1
Date: Tue, 11 Mar 2025 12:38:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.7644
Title: Layton: Latent Consistency Tokenizer for 1024-pixel Image Reconstruction and Generation by 256 Tokens
Title（参考訳）: Layton: 256トークンによる1024ピクセル画像再構成と生成のための遅延整合型トケナイザ
Authors: Qingsong Xie, Zhao Zhang, Zhe Huang, Yanhao Zhang, Haonan Lu, Zhenyu Yang,
Abstract要約: Layton(Latent Consistency Tokenizer)は、事前学習された潜在拡散モデル(LDM)のコンパクト潜在空間で離散的視覚トークンをブリッジする MSCOCO-2017の1024x1024画像再構成のためのFrechet Inception DistanceをMSCOCO-2017 5Kベンチマークで10.8再構成した。私たちはLaytonをテキストから画像生成モデルであるLaytonGenに拡張し、自動回帰で作業します。
参考スコア（独自算出の注目度）: 16.88806281310958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image tokenization has significantly advanced visual generation and multimodal modeling, particularly when paired with autoregressive models. However, current methods face challenges in balancing efficiency and fidelity: high-resolution image reconstruction either requires an excessive number of tokens or compromises critical details through token reduction. To resolve this, we propose Latent Consistency Tokenizer (Layton) that bridges discrete visual tokens with the compact latent space of pre-trained Latent Diffusion Models (LDMs), enabling efficient representation of 1024x1024 images using only 256 tokens-a 16 times compression over VQGAN. Layton integrates a transformer encoder, a quantized codebook, and a latent consistency decoder. Direct application of LDM as the decoder results in color and brightness discrepancies. Thus, we convert it to latent consistency decoder, reducing multi-step sampling to 1-2 steps for direct pixel-level supervision. Experiments demonstrate Layton's superiority in high-fidelity reconstruction, with 10.8 reconstruction Frechet Inception Distance on MSCOCO-2017 5K benchmark for 1024x1024 image reconstruction. We also extend Layton to a text-to-image generation model, LaytonGen, working in autoregression. It achieves 0.73 score on GenEval benchmark, surpassing current state-of-the-art methods. The code and model will be released.
Abstract（参考訳）: 画像トークン化は、特に自己回帰モデルと組み合わせた場合、視覚生成とマルチモーダルモデリングを著しく進歩させた。しかし、現在の手法は効率性と忠実性のバランスをとる上で困難に直面している。高解像度の画像再構成には過剰なトークン数が必要か、トークンの削減による重要な詳細を妥協する必要がある。そこで本研究では,離散的視覚トークンをLDM(Latent Diffusion Models)のコンパクトな潜在空間にブリッジし,256個のトークンのみを用いて1024x1024画像の効率的な表現を可能にするLatent Consistency Tokenizer(Layton)を提案する。 Laytonはトランスフォーマーエンコーダ、量子化されたコードブック、遅延一貫性デコーダを統合している。復号器としてのLCMの直接適用は、色と明るさの相違をもたらす。そこで我々はこれを遅延整合復号器に変換し,複数ステップのサンプリングを1-2ステップに減らし,画素レベルの直接監視を行う。 MSCOCO-2017の1024x1024画像再構成のためのFrechet Inception DistanceをMSCOCO-2017 5Kベンチマークで10.8再構成した。また、Laytonをテキストから画像生成モデルであるLaytonGenに拡張し、自動回帰に取り組んでいます。 GenEvalベンチマークで0.73のスコアを獲得し、現在の最先端メソッドを上回っている。コードとモデルはリリースされる。

関連論文リスト

Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。 DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文参考訳（メタデータ） (2025-07-02T14:33:52Z)
Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation [27.795313102716726]
画像のコンパクトな離散表現のための1次元バイナリ画像ラテントを提案する。提案手法は, 1次元ラテントのコンパクト性を維持しながら, 高分解能の細部を保存できる。我々のテキスト・ツー・イメージモデルは、拡散と自己回帰の両方で競合する性能を達成した最初のモデルです。
論文参考訳（メタデータ） (2025-06-26T05:48:36Z)
AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [59.065471969232284]
トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
論文参考訳（メタデータ） (2025-06-05T17:45:10Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文参考訳（メタデータ） (2025-02-19T18:59:44Z)
Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文参考訳（メタデータ） (2024-11-04T18:58:01Z)
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。 HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文参考訳（メタデータ） (2024-10-14T17:59:42Z)
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers [41.79064227895747]
Sanaは4096$times$4096解像度までの画像を生成できるテキスト・ツー・イメージのフレームワークである。 Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
論文参考訳（メタデータ） (2024-10-14T15:36:42Z)
MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文参考訳（メタデータ） (2024-09-24T16:12:12Z)
An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。 TiTokは最先端のアプローチと競合するパフォーマンスを実現している。我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文参考訳（メタデータ） (2024-06-11T17:59:56Z)
Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-31T01:20:16Z)
Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。 346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文参考訳（メタデータ） (2023-12-22T10:01:54Z)
CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文参考訳（メタデータ） (2023-03-15T11:13:51Z)
Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文参考訳（メタデータ） (2022-11-21T03:48:13Z)
Image Compression with Recurrent Neural Network and Generalized Divisive Normalization [3.0204520109309843]
深層学習は研究コミュニティから大きな注目を集め、将来有望な画像再構成結果を生み出している。近年の手法は、ネットワークの複雑さを大幅に増大させる、より深い複雑なネットワークの開発に焦点を当てている。本稿では、畳み込み層を用いた解析とブロック合成と、可変レートエンコーダとデコーダ側における一般化分割正規化(GDN)の2つの有効な新しいブロックを開発する。
論文参考訳（メタデータ） (2021-09-05T05:31:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。