論文の概要: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2507.08441v1
- Date: Fri, 11 Jul 2025 09:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.308317
- Title: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成のための効果的な視覚トケナイザとしての視覚基礎モデル
- Authors: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi,
- Abstract要約: 我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
- 参考スコア(独自算出の注目度): 66.73899356886652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the powerful representations of pre-trained vision foundation models -- traditionally used for visual comprehension -- we explore a novel direction: building an image tokenizer directly atop such models, a largely underexplored area. Specifically, we employ a frozen vision foundation model as the encoder of our tokenizer. To enhance its effectiveness, we introduce two key components: (1) a region-adaptive quantization framework that reduces redundancy in the pre-trained features on regular 2D grids, and (2) a semantic reconstruction objective that aligns the tokenizer's outputs with the foundation model's representations to preserve semantic fidelity. Based on these designs, our proposed image tokenizer, VFMTok, achieves substantial improvements in image reconstruction and generation quality, while also enhancing token efficiency. It further boosts autoregressive (AR) generation -- achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model convergence by three times, and enabling high-fidelity class-conditional synthesis without the need for classifier-free guidance (CFG). The code will be released publicly to benefit the community.
- Abstract(参考訳): トレーニング済みの視覚基盤モデルの強力な表現(伝統的に視覚的理解のために使用される)を活用することで、新しい方向性を探る。
具体的には,プロテタイザのエンコーダとして凍結視覚基盤モデルを用いる。
有効性を高めるために,(1)通常の2次元グリッド上での事前学習特徴の冗長性を低減する領域適応量子化フレームワーク,(2)トークン化器の出力と基礎モデルの表現とを整合させて意味的忠実性を保存する意味的再構成の2つの重要な要素を紹介した。
これらの設計に基づき、提案する画像トークン化器であるVFMTokは、画像再構成と生成品質を大幅に改善するとともに、トークン効率を向上する。
さらに、ImageNetベンチマークで2.07のgFIDを達成するとともに、モデルの収束を3倍に加速し、分類器フリーガイダンス(CFG)を必要とせずに、高忠実なクラス条件合成を可能にする自動回帰(AR)生成をさらに強化する。
コードはコミュニティに利益をもたらすために公開されます。
関連論文リスト
- Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Locally-Focused Face Representation for Sketch-to-Image Generation Using Noise-Induced Refinement [1.7409266903306055]
本稿では,初歩的な顔スケッチの高忠実度カラー画像への変換を著しく向上させる新しいディープラーニングフレームワークを提案する。
提案手法は,エンコーダ・デコーダアーキテクチャ内のブロックアテンション機構により,顔の特徴を効果的に捉え,強化する。
このモデルは、スケッチ・ツー・イメージ生成における新しい最先端の状態を設定し、スケッチの型を一般化し、法執行機関における犯罪識別のようなアプリケーションに対して堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-28T09:12:56Z) - High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient
Vision Transformers [41.78970081787674]
本稿では,高解像度画像生成のためのより効率的な2段階フレームワークを提案する。
我々は,従来手法で用いたグローバルアテンション機構の代わりに,局所アテンションに基づく量子化モデルを用いる。
このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。
論文 参考訳(メタデータ) (2023-10-09T04:38:52Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。