論文の概要: Visual Generation Tuning
- arxiv url: http://arxiv.org/abs/2511.23469v1
- Date: Fri, 28 Nov 2025 18:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.034676
- Title: Visual Generation Tuning
- Title(参考訳): ビジュアルジェネレーションチューニング
- Authors: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang,
- Abstract要約: 視覚言語モデルにおける視覚生成の基盤となる能力を刺激する新しいパラダイムであるVGT, Visual Generation Tuningを提案する。
画像再構成タスクでは、26.67 PSNRと0.50 rFIDを28倍圧縮比で達成し、特殊VAEよりも優れていた。
提案するVGTは,拡張性を示すとともに,マルチモーダル理解のために訓練されたVLMを視覚的生成能力で実現するためにも有用である。
- 参考スコア(独自算出の注目度): 84.50113837230333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、広範囲な事前訓練を通じてモダリティギャップを効果的に橋渡しし、言語に整合した洗練された視覚表現を取得する。
しかし、これらの表現がマルチモーダル理解タスクに最適化され、視覚生成に固有の可能性を秘めているかどうかはまだ解明されていない。
本稿では,視覚言語モデルにおける視覚生成の基盤となる能力を刺激する新しいパラダイムであるVGT,Visual Generation Tuningを提案する。
良好な制約付きVLM上で効率的な視覚生成チューニングを行うことにより、アライメントコストを大幅に軽減し、連続空間における自己回帰モデリングの収束を加速する(20倍高速化)。
具体的には、拡散変換器やVGT-AEの定式化のために設計された絡み合った画素レベルのVAEを、予め訓練されたVLMから画素デコーダの潜在表現に整合させることにより排除する。
画像再構成タスクでは、26.67 PSNRと0.50 rFIDを28倍圧縮比で達成し、特殊VAEよりも優れ、視覚生成タスクでは、自己回帰モデルにおける最先端の結果、GenEvalでは0.77、DPG-Benchでは78.73を得る。
さらに,提案したVGTは,拡張可能性を示すとともに,視覚生成能力によってマルチモーダル理解を訓練したVLMを,次世代の統一マルチモーダル基盤モデルを探求するための新たな道筋を開拓する上で,汎用性が高い。
モデルとコードはhttps://github.com/hustvl/VGT.comで入手できる。
関連論文リスト
- VUGEN: Visual Understanding priors for GENeration [18.840804846528865]
VUGENは、VLMの事前訓練された視覚的理解を、効率的で高品質な画像生成に明示的に活用する新しいフレームワークである。
我々のアプローチは、まずVLMのネイティブビジョンエンコーダの高次元潜在空間を、低次元、トラクタブルな分布に変換する。
専用のピクセルデコーダは、生成されたラテントをイメージ空間にマッピングする。
論文 参考訳(メタデータ) (2025-10-08T00:04:47Z) - From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。