論文の概要: Image Understanding Makes for A Good Tokenizer for Image Generation
- arxiv url: http://arxiv.org/abs/2411.04406v1
- Date: Thu, 07 Nov 2024 03:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:44.965965
- Title: Image Understanding Makes for A Good Tokenizer for Image Generation
- Title(参考訳): 画像生成のための優れたトケナイザのための画像理解
- Authors: Luting Wang, Yang Zhao, Zijian Zhang, Jiashi Feng, Si Liu, Bingyi Kang,
- Abstract要約: 我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
- 参考スコア(独自算出の注目度): 62.875788091204626
- License:
- Abstract: Abstract Modern image generation (IG) models have been shown to capture rich semantics valuable for image understanding (IU) tasks. However, the potential of IU models to improve IG performance remains uncharted. We address this issue using a token-based IG framework, which relies on effective tokenizers to project images into token sequences. Currently, pixel reconstruction (e.g., VQGAN) dominates the training objective for image tokenizers. In contrast, our approach adopts the feature reconstruction objective, where tokenizers are trained by distilling knowledge from pretrained IU encoders. Comprehensive comparisons indicate that tokenizers with strong IU capabilities achieve superior IG performance across a variety of metrics, datasets, tasks, and proposal networks. Notably, VQ-KD CLIP achieves $4.10$ FID on ImageNet-1k (IN-1k). Visualization suggests that the superiority of VQ-KD can be partly attributed to the rich semantics within the VQ-KD codebook. We further introduce a straightforward pipeline to directly transform IU encoders into tokenizers, demonstrating exceptional effectiveness for IG tasks. These discoveries may energize further exploration into image tokenizer research and inspire the community to reassess the relationship between IU and IG. The code is released at https://github.com/magic-research/vector_quantization.
- Abstract(参考訳): 抽象現代画像生成(IG)モデルは、画像理解(IU)タスクに有用なリッチセマンティクスをキャプチャする。
しかし、IG性能を改善するためのIUモデルの可能性はいまだ不明である。
我々はトークンベースのIGフレームワークを用いてこの問題に対処する。これはトークンシーケンスにイメージを投影する効果的なトークン化器に依存している。
現在、画素再構成(例えば、VQGAN)が画像トークン化の訓練対象となっている。
対照的に,本手法では,事前に訓練されたIUエンコーダの知識を蒸留することにより,トークン化者を訓練する特徴再構成の目的を取り入れている。
総合的な比較は、強力なIU機能を持つトークンライザが、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIGパフォーマンスを達成することを示している。
特に、VQ-KD CLIP は ImageNet-1k (IN-1k) 上で 4.10$ FID を達成する。
可視化は、VQ-KDの優位性は、VQ-KDコードブック内のリッチなセマンティクスに起因する可能性があることを示唆している。
さらに、IUエンコーダをトークン化器に変換する簡単なパイプラインを導入し、IGタスクに対して例外的な効果を示す。
これらの発見は、画像トークン化の研究をさらに加速させ、IUとIGの関係を再評価するようコミュニティに促す可能性がある。
コードはhttps://github.com/magic-research/vector_quantizationで公開されている。
関連論文リスト
- Learning Graph Quantized Tokenizers for Transformers [28.79505338383552]
グラフトランスフォーマー(GT)は、さまざまなグラフ学習タスクにおいて、グラフニューラルネットワーク(GNN)よりも優れた、ディープラーニングのリードモデルとして登場した。
GQT (textbfGraph textbfQuantized textbfTokenizer) を導入した。
GQTとトークン変調を組み合わせることで、Transformerエンコーダは18のベンチマークのうち16の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-17T17:38:24Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文 参考訳(メタデータ) (2023-12-04T18:59:20Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Attention-Driven Dynamic Graph Convolutional Network for Multi-Label
Image Recognition [53.17837649440601]
本稿では,各画像の特定のグラフを動的に生成するアテンション駆動型動的グラフ畳み込みネットワーク(ADD-GCN)を提案する。
パブリックなマルチラベルベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-05T10:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。