論文の概要: Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
- arxiv url: http://arxiv.org/abs/2501.07730v1
- Date: Mon, 13 Jan 2025 22:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:24.370376
- Title: Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
- Title(参考訳): コンパクトテキスト対応一次元トークンを用いたテキスト・ツー・イメージマスク生成モデルの民主化
- Authors: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen,
- Abstract要約: テキスト・アウェア・トランスフォーマーを用いた1次元トケナイザ(TA-TiTok)について紹介する。
TA-TiTokは、離散的または連続的な1次元トークンを利用することができる効率的で強力な画像トークンである。
また,オープンデータに特化して訓練されたMasked Generative Models (MaskGen) のファミリーについても紹介する。
- 参考スコア(独自算出の注目度): 46.361925096761915
- License:
- Abstract: Image tokenizers form the foundation of modern text-to-image generative models but are notoriously difficult to train. Furthermore, most existing text-to-image models rely on large-scale, high-quality private datasets, making them challenging to replicate. In this work, we introduce Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful image tokenizer that can utilize either discrete or continuous 1-dimensional tokens. TA-TiTok uniquely integrates textual information during the tokenizer decoding stage (i.e., de-tokenization), accelerating convergence and enhancing performance. TA-TiTok also benefits from a simplified, yet effective, one-stage training process, eliminating the need for the complex two-stage distillation used in previous 1-dimensional tokenizers. This design allows for seamless scalability to large datasets. Building on this, we introduce a family of text-to-image Masked Generative Models (MaskGen), trained exclusively on open data while achieving comparable performance to models trained on private data. We aim to release both the efficient, strong TA-TiTok tokenizers and the open-data, open-weight MaskGen models to promote broader access and democratize the field of text-to-image masked generative models.
- Abstract(参考訳): 画像トークンーは、現代のテキストから画像への生成モデルの基盤を形成するが、訓練が難しいことで知られている。
さらに、既存のテキスト・ツー・イメージモデルの多くは、大規模で高品質なプライベートデータセットに依存しているため、複製が困難である。
本研究では,テキスト・アウェア・トランスフォーマーを用いた1次元トケナイザ(TA-TiTok)を提案する。
TA-TiTokは、トークン化の復号化段階(デトークン化)において、テキスト情報を一意に統合し、収束を加速し、性能を向上させる。
TA-TiTokはまた、よりシンプルで効果的な1段階の訓練プロセスの恩恵を受け、以前の1次元のトークン化剤で使用される複雑な2段階の蒸留の必要性を排除した。
この設計により、大規模なデータセットに対するシームレスなスケーラビリティが可能になる。
これに基づいて、オープンデータのみにトレーニングされたMasked Generative Models(MaskGen)のファミリーを導入し、プライベートデータでトレーニングされたモデルに匹敵するパフォーマンスを実現した。
我々は,効率的で強力なTA-TiTokトークンとオープンデータでオープンなMaskGenモデルの両方をリリースし,テキストから画像へのマスク付き生成モデルの領域を広くアクセスし,民主化することを目指している。
関連論文リスト
- MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。