論文の概要: Language-Guided Image Tokenization for Generation
- arxiv url: http://arxiv.org/abs/2412.05796v1
- Date: Sun, 08 Dec 2024 03:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:51.608618
- Title: Language-Guided Image Tokenization for Generation
- Title(参考訳): 生成のための言語誘導型画像トークン化
- Authors: Kaiwen Zha, Lijun Yu, Alireza Fathi, David A. Ross, Cordelia Schmid, Dina Katabi, Xiuye Gu,
- Abstract要約: TexTokは、言語を活用して高度なセマンティクスを提供する、シンプルだが効果的なトークン化フレームワークである。
記述的なテキストキャプションにトークン化プロセスを条件付けすることで、TexTokはトークン化プロセスが詳細な視覚的詳細を潜在トークンにエンコードすることに集中できるようにする。
バニラ DiT ジェネレータを備えた TexTok は、ImageNet-256 と -512 でそれぞれ 1.46 と 1.62 の最先端 FID スコアを達成している。
- 参考スコア(独自算出の注目度): 63.0859685332583
- License:
- Abstract: Image tokenization, the process of transforming raw image pixels into a compact low-dimensional latent representation, has proven crucial for scalable and efficient image generation. However, mainstream image tokenization methods generally have limited compression rates, making high-resolution image generation computationally expensive. To address this challenge, we propose to leverage language for efficient image tokenization, and we call our method Text-Conditioned Image Tokenization (TexTok). TexTok is a simple yet effective tokenization framework that leverages language to provide high-level semantics. By conditioning the tokenization process on descriptive text captions, TexTok allows the tokenization process to focus on encoding fine-grained visual details into latent tokens, leading to enhanced reconstruction quality and higher compression rates. Compared to the conventional tokenizer without text conditioning, TexTok achieves average reconstruction FID improvements of 29.2% and 48.1% on ImageNet-256 and -512 benchmarks respectively, across varying numbers of tokens. These tokenization improvements consistently translate to 16.3% and 34.3% average improvements in generation FID. By simply replacing the tokenizer in Diffusion Transformer (DiT) with TexTok, our system can achieve a 93.5x inference speedup while still outperforming the original DiT using only 32 tokens on ImageNet-512. TexTok with a vanilla DiT generator achieves state-of-the-art FID scores of 1.46 and 1.62 on ImageNet-256 and -512 respectively. Furthermore, we demonstrate TexTok's superiority on the text-to-image generation task, effectively utilizing the off-the-shelf text captions in tokenization.
- Abstract(参考訳): 画像トークン化(生画像ピクセルをコンパクトな低次元潜在表現に変換するプロセス)は、スケーラブルで効率的な画像生成に不可欠であることが証明されている。
しかし、主流の画像トークン化法は一般的に圧縮速度が限られており、高解像度の画像生成は計算コストがかかる。
この課題に対処するために、効率的な画像トークン化のために言語を活用することを提案し、その手法をText-Conditioned Image Tokenization (TexTok)と呼ぶ。
TexTokは、言語を活用して高度なセマンティクスを提供する、シンプルだが効果的なトークン化フレームワークである。
TexTokは、記述的なテキストキャプションにトークン化プロセスを条件付けすることで、トークン化プロセスが細粒度の視覚的詳細を潜在トークンにエンコードすることに集中できるようにし、再構築品質が向上し、圧縮速度が向上する。
TexTokはテキストコンディショニングのない従来のトークンライザと比較して、ImageNet-256と-512ベンチマークでそれぞれ29.2%と48.1%のFID改善を実現している。
これらのトークン化の改善は、連続して16.3%と34.3%の平均的なFIDの改善に変換される。
また, Diffusion Transformer (DiT) のトークン化を TexTok に置き換えることによって,ImageNet-512 上の 32 個のトークンのみを用いて,元の DiT よりも高い性能を保ちながら,93.5x の推論高速化を実現した。
バニラ DiT ジェネレータを備えた TexTok は、ImageNet-256 と -512 でそれぞれ 1.46 と 1.62 の最先端 FID スコアを達成している。
さらに,テキスト・ツー・イメージ生成タスクにおけるTexTokの優位性を実証し,オフ・ザ・シェルフテキストキャプションをトークン化に有効活用する。
関連論文リスト
- FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer [45.720721058671856]
SoftVQ-VAEは、ソフトカテゴリ後部を利用して複数のコードワードを各潜在トークンに集約する連続画像トークンである。
提案手法は,32または64個の1次元トークンを用いて256x256および512x512画像を圧縮する。
興味深いことに、SoftVQ-VAEは256x256画像を生成するために最大18倍の推論スループットを向上し、512x512画像に対して55倍である。
論文 参考訳(メタデータ) (2024-12-14T20:29:29Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。