論文の概要: Language-Guided Image Tokenization for Generation
- arxiv url: http://arxiv.org/abs/2412.05796v1
- Date: Sun, 08 Dec 2024 03:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:51.608618
- Title: Language-Guided Image Tokenization for Generation
- Title(参考訳): 生成のための言語誘導型画像トークン化
- Authors: Kaiwen Zha, Lijun Yu, Alireza Fathi, David A. Ross, Cordelia Schmid, Dina Katabi, Xiuye Gu,
- Abstract要約: TexTokは、言語を活用して高度なセマンティクスを提供する、シンプルだが効果的なトークン化フレームワークである。
記述的なテキストキャプションにトークン化プロセスを条件付けすることで、TexTokはトークン化プロセスが詳細な視覚的詳細を潜在トークンにエンコードすることに集中できるようにする。
バニラ DiT ジェネレータを備えた TexTok は、ImageNet-256 と -512 でそれぞれ 1.46 と 1.62 の最先端 FID スコアを達成している。
- 参考スコア(独自算出の注目度): 63.0859685332583
- License:
- Abstract: Image tokenization, the process of transforming raw image pixels into a compact low-dimensional latent representation, has proven crucial for scalable and efficient image generation. However, mainstream image tokenization methods generally have limited compression rates, making high-resolution image generation computationally expensive. To address this challenge, we propose to leverage language for efficient image tokenization, and we call our method Text-Conditioned Image Tokenization (TexTok). TexTok is a simple yet effective tokenization framework that leverages language to provide high-level semantics. By conditioning the tokenization process on descriptive text captions, TexTok allows the tokenization process to focus on encoding fine-grained visual details into latent tokens, leading to enhanced reconstruction quality and higher compression rates. Compared to the conventional tokenizer without text conditioning, TexTok achieves average reconstruction FID improvements of 29.2% and 48.1% on ImageNet-256 and -512 benchmarks respectively, across varying numbers of tokens. These tokenization improvements consistently translate to 16.3% and 34.3% average improvements in generation FID. By simply replacing the tokenizer in Diffusion Transformer (DiT) with TexTok, our system can achieve a 93.5x inference speedup while still outperforming the original DiT using only 32 tokens on ImageNet-512. TexTok with a vanilla DiT generator achieves state-of-the-art FID scores of 1.46 and 1.62 on ImageNet-256 and -512 respectively. Furthermore, we demonstrate TexTok's superiority on the text-to-image generation task, effectively utilizing the off-the-shelf text captions in tokenization.
- Abstract(参考訳): 画像トークン化(生画像ピクセルをコンパクトな低次元潜在表現に変換するプロセス)は、スケーラブルで効率的な画像生成に不可欠であることが証明されている。
しかし、主流の画像トークン化法は一般的に圧縮速度が限られており、高解像度の画像生成は計算コストがかかる。
この課題に対処するために、効率的な画像トークン化のために言語を活用することを提案し、その手法をText-Conditioned Image Tokenization (TexTok)と呼ぶ。
TexTokは、言語を活用して高度なセマンティクスを提供する、シンプルだが効果的なトークン化フレームワークである。
TexTokは、記述的なテキストキャプションにトークン化プロセスを条件付けすることで、トークン化プロセスが細粒度の視覚的詳細を潜在トークンにエンコードすることに集中できるようにし、再構築品質が向上し、圧縮速度が向上する。
TexTokはテキストコンディショニングのない従来のトークンライザと比較して、ImageNet-256と-512ベンチマークでそれぞれ29.2%と48.1%のFID改善を実現している。
これらのトークン化の改善は、連続して16.3%と34.3%の平均的なFIDの改善に変換される。
また, Diffusion Transformer (DiT) のトークン化を TexTok に置き換えることによって,ImageNet-512 上の 32 個のトークンのみを用いて,元の DiT よりも高い性能を保ちながら,93.5x の推論高速化を実現した。
バニラ DiT ジェネレータを備えた TexTok は、ImageNet-256 と -512 でそれぞれ 1.46 と 1.62 の最先端 FID スコアを達成している。
さらに,テキスト・ツー・イメージ生成タスクにおけるTexTokの優位性を実証し,オフ・ザ・シェルフテキストキャプションをトークン化に有効活用する。
関連論文リスト
- FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-training [21.372374962328948]
言語イメージの事前学習は、特定のフォーマットの限られたデータと、テキストエンコーダの制約された容量のために、重大な課題に直面している。
我々は,凍結した大言語モデルをテキストエンコーダとして利用するFLAME (Frozen Large lAnguage Models Enable data- efficient language-image pre-training)を提案する。
FLAMEは,1)長いキャプションから多様な意味表現を抽出する多面的急速蒸留技術,2)オフライン埋め込み戦略を補完する顔分離型アテンション機構である。
論文 参考訳(メタデータ) (2024-11-18T09:19:30Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - TPFNet: A Novel Text In-painting Transformer for Text Removal [3.7067444579637074]
画像からテキストを除去する新しいワンステージ(エンドツーエンド)ネットワークTPFNetを提案する。
第1部は低解像度画像で動作し、第2部は高解像度のテキストフリー画像を予測する。
オックスフォード、SCUT、SCUT-EnsTextのデータセットでは、我々のネットワークは、ほぼすべてのメトリクスに関する提案されたネットワークよりも優れています。
論文 参考訳(メタデータ) (2022-10-26T04:16:50Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。